|
TextCat - implementation of the text categorization algorithm |
Реализация алгоритма "N-Gram-Based Text Categorization" (на Perl) статистического анализа текста для автоматического определения языка на котором написан текст (для русского языка производится также определение кодировки).
Статья отражающая суть алгоритма (на русском языке). |
http://odur.let.rug.nl/~vannoord/TextCat/ |
Полезные Perl модули. Преобразование из одной кодировки в другую
|
rus, codepage, language, (найти похожие документы) |