Возникла следующая ситуация:
ошибка в конфигурации cisco роутера вызвала, что в файл netflow некоторые флоу данные записались два раза. Не все, но значительное кол-во. Теперь стоит вопрос как из этих файлов убрать дубликаты. Поиск результата не дал. Или искал не правильно.Что пришло в голову.
Перегонять файл flow-export в текст
скриптом удалить дубликаты строк. Про сам скрипт не думал еще, но не очень сложная задача.
Сложность только сохранить порядок следования.
Полученный текст возвращаем назад flow-import.
Единственное не знаю какой уровень компрессии по умолчанию использует flow-capture, но это можно выяснить.
Недостаток - полностью теряется информация заголовка. Было
# mode: normal
# capture start: Mon Jul 13 15:50:00 2009
# capture end: Mon Jul 13 15:55:00 2009
# capture period: 300 seconds
# compress: on
# byte order: little
# stream version: 3
# export version: 5
# lost flows: 0
# corrupt packets: 0
# sequencer resets: 0
# capture flows: 70140
Стало
# mode: streaming
# compress: on
# byte order: little
# stream version: 3
# export version: 5
# comments: flow-import
Никто не сталкивался с подобной задачей? Может есть другой вариант решения?
Не считая написание программы которая перепетрушит файл.