Увидела свет утилита sqlite3-rdiff, предназначенная для организации репликации данных между несколькими БД SQLite. Утилита поддерживает три базовые операции:
- Формирование файла хэш-сигнатур, отражающих текущее состояние всех записей БД.
- Генерацию delta-патча на основе сравнения текущего состояния базы с состоянием отраженным в файле сигнатур.
- Обновление данных в БД на основе заданного delta-патча:
Сигнатуры вычисляются с использованием хэш-функции MurmurHash для всех данных одной строки или группы строк базы. Размер файла сигнатур занимает около 10% от размера исходной базы, но имеется возможность вычисления и проверки сигнатур сразу для нескольких строк, что позволяет значительно сократить размер файла сигнатур за счет увеличения размера delta-патча. Примечательно, что при генерации одной сигнатуры для N-строк, размер файла с сигнатурами уменьшается в N раз. Группировку предпочтительно использовать для баз большого размера, данные в которых изменяются не часто.
Пример по доведению необновленной версии slave.db до актуальной БД master.db:
sqlite3-rdiff --rows-per-hash 16 signature slave.db slave.db.sign
sqlite3-rdiff delta slave.db.sign master.db slave.db.delta
sqlite3-rdiff patch slave.db slave.db.delta slave.db
В итоге, для slave.db размером 1.5 Гб будет сгенерирован патч slave.db.delta размером 4.3 Мб и файл сигнатур slave.db.signature размером 13 Мб. В данный пример (--rows-per-hash 16) сигнатура создается для 16 строк таблицы, если формировать сигнатуру для каждой строки, то итоговые файлы будут следующего размера: slave.db.delta - 3.4 Мб, slave.db.signature - 160 Мб.
|