URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID8
Нить номер: 8372
[ Назад ]

Исходное сообщение
"Паралельное выполнение обработки файлов"

Отправлено Nightman_Sha , 09-Янв-24 08:15 
Добрый день!
Имеем
PHP Version 7.4.10
Есть скрипт, который выполняет scandir нужного каталога в отдельной функции и возвращает массив

Затем бежит по этому массиву и выполняет процессинг "по одному":

foreach ($lrFiles as $lsKey => $lsFile) {
      $this->CopyToArchivDir($lsOrigDir. $lsFile , PRESENTATION_DIR.'../'.$irService['InFileDir']);
      $lbResult = $this->ProcessFile($lsOrigDir . $lsFile);
      if ($lbResult) {
        unlink($lsOrigDir . $lsFile);
      }
    }

ProcessFile достаточно тяжелая , выполняются всякие iconv, ввод/вывод в БД и другие преобразования. Не суть.

Вопрос: можно ли распараллелить выполнение ProcessFile минуя последовательную обработку"по одному".
Чтобы процессинг шел _безопасно_ в паралели на несколько трэдов.

googlение дает противоречивое, куча фремворков и встроенных возможностей PHP. А какие надежные и безопасные? Учитывая, что с PHP я знаком не хорошо ..
Направьте пожалуйста в нужное русло
Спасибо



Содержание

Сообщения в этом обсуждении
"Паралельное выполнение обработки файлов"
Отправлено ACCA , 10-Янв-24 20:32 
Не делай scandir, а читай имена файлов для обработки из STDIN. После этого заворачиваешь свой PHP во что-нибудь вроде

#!/bin/bash

ORIGDIR=/opt

CPUS=$(expr $(nproc) - 2)
TMPFILE=$(mktemp)
trap "rm $TMPFILE $TMPFILE.*" EXIT

find $ORIGDIR -type f > $TMPFILE
split -n l/$CPUS $TMPFILE $TMPFILE.

for LST in $TMPFILE.*
do
    wc -l < $LST &
done
wait
wait

Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2 (пару ядер оставим для другой работы).


"Паралельное выполнение обработки файлов"
Отправлено Nightman_Sha , 11-Янв-24 12:55 
>[оверквотинг удален]
> split -n l/$CPUS $TMPFILE $TMPFILE.
> for LST in $TMPFILE.*
> do
>     wc -l < $LST &
> done
> wait
> wait
>

> Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2
> (пару ядер оставим для другой работы).

Меня мало беспокоит производительность ScanDir на большом кол-ве файлов.
Львиная доля времени уходит не на ScanDir, а на последовательную обработку файлов по одному.
И перенести логику обработки из PHP нельзя, там серьезная обработка.
Вот распаралелить возможно , осталось выяснить как :)


"Паралельное выполнение обработки файлов"
Отправлено Аноним , 12-Янв-24 23:13 
Это оно

https://stackoverflow.com/questions/70855/how-can-one-use-mu...

https://www.php.net/manual/en/class.thread.php

??


"Паралельное выполнение обработки файлов"
Отправлено ACCA , 14-Янв-24 03:33 
> Вот распаралелить возможно , осталось выяснить как :)

Я тебе это и показал.

Складываешь имена файлов в файл. Рвёшь его на N кусков. Запускаешь N процессов, каждому кусок списка файлов. Обрабатываешь параллельно. Ждёшь, когда все закончатся.