URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID8
Нить номер: 8372
[ Назад ]

Исходное сообщение
"Паралельное выполнение обработки файлов"
Отправлено Nightman_Sha , 09-Янв-24 08:15

Добрый день!
Имеем
PHP Version 7.4.10
Есть скрипт, который выполняет scandir нужного каталога в отдельной функции и возвращает массив
Затем бежит по этому массиву и выполняет процессинг "по одному":
foreach ($lrFiles as $lsKey => $lsFile) {
      $this->CopyToArchivDir($lsOrigDir. $lsFile , PRESENTATION_DIR.'../'.$irService['InFileDir']);
      $lbResult = $this->ProcessFile($lsOrigDir . $lsFile);
      if ($lbResult) {
        unlink($lsOrigDir . $lsFile);
      }
    }
ProcessFile достаточно тяжелая , выполняются всякие iconv, ввод/вывод в БД и другие преобразования. Не суть.
Вопрос: можно ли распараллелить выполнение ProcessFile минуя последовательную обработку"по одному".
Чтобы процессинг шел _безопасно_ в паралели на несколько трэдов.
googlение дает противоречивое, куча фремворков и встроенных возможностей PHP. А какие надежные и безопасные? Учитывая, что с PHP я знаком не хорошо ..
Направьте пожалуйста в нужное русло
Спасибо

Содержание

Паралельное выполнение обработки файлов,ACCA, 20:32 , 10-Янв-24
- Паралельное выполнение обработки файлов,Nightman_Sha, 12:55 , 11-Янв-24
  - Паралельное выполнение обработки файлов,Аноним, 23:13 , 12-Янв-24
  - Паралельное выполнение обработки файлов,ACCA, 03:33 , 14-Янв-24

Сообщения в этом обсуждении

"Паралельное выполнение обработки файлов"
Отправлено ACCA , 10-Янв-24 20:32

Не делай scandir, а читай имена файлов для обработки из STDIN. После этого заворачиваешь свой PHP во что-нибудь вроде

#!/bin/bash
ORIGDIR=/opt
CPUS=$(expr $(nproc) - 2)
TMPFILE=$(mktemp)
trap "rm $TMPFILE $TMPFILE.*" EXIT
find $ORIGDIR -type f > $TMPFILE
split -n l/$CPUS $TMPFILE $TMPFILE.
for LST in $TMPFILE.*
do
wc -l < $LST &
done
wait
wait
Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2 (пару ядер оставим для другой работы).

"Паралельное выполнение обработки файлов"
Отправлено Nightman_Sha , 11-Янв-24 12:55

>[оверквотинг удален]
> split -n l/$CPUS $TMPFILE $TMPFILE.
> for LST in $TMPFILE.*
> do
> wc -l < $LST &
> done
> wait
> wait
>
> Для примера обработки здесь использован wc. Количество параллельных процессов = число ядер-2
> (пару ядер оставим для другой работы).
Меня мало беспокоит производительность ScanDir на большом кол-ве файлов.
Львиная доля времени уходит не на ScanDir, а на последовательную обработку файлов по одному.
И перенести логику обработки из PHP нельзя, там серьезная обработка.
Вот распаралелить возможно , осталось выяснить как :)

"Паралельное выполнение обработки файлов"
Отправлено Аноним , 12-Янв-24 23:13

Это оно
https://stackoverflow.com/questions/70855/how-can-one-use-mu...
https://www.php.net/manual/en/class.thread.php
??

"Паралельное выполнение обработки файлов"
Отправлено ACCA , 14-Янв-24 03:33

> Вот распаралелить возможно , осталось выяснить как :)
Я тебе это и показал.
Складываешь имена файлов в файл. Рвёшь его на N кусков. Запускаешь N процессов, каждому кусок списка файлов. Обрабатываешь параллельно. Ждёшь, когда все закончатся.