Добрый день, уважаемые форумчане!Суть задачи довольно простая, на первый взгляд -
1. найти подходящую программу/доработать существующую,
2. произвести "тренировку", используя существующие тексты,
3. на ввод программы подать произвольный текст,
4. на выходе получить оценку в виде баллов (не суть в каком виде, главное это наличие оценки)Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока мне эта идея кажется безумной и наверняка можно упереться в "заточенность" архитектуры спам-фильтра.
Мне на глаза попался opennlp, и вроде бы в нем есть необходимый функционал, но очень плохо документирован, во всяком случае внешние команды оболочки (API пока тем более для меня темный лес).
Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это" поддерживало обработку русского языка и было достаточно документировано.
Спасибо.
> 3. на ввод программы подать произвольный текст,
> 4. на выходе получить оценку в виде баллов (не суть в каком
> виде, главное это наличие оценки)Я сегодня добрый:
#!/bin/bashcat >/dev/null
echo 3+
> Я сегодня добрый:
>#!/bin/bash
> cat >/dev/null
> echo 3+Характер Andrey Mitrofanov в 3-х строках
Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.Знаете, это мой первый вопрос за несколько последних лет.
То, что вы называете "мозгами, фантазией и юмором", для меня есть снобизм и агрессия.В конечном счете, вы можете просто пройти мимо этой темы и не связываться с глупым человеком, а показать свой "мозг, фантазию, юмор" в комментариях к новостям. Впрочем, я вам не указ.
Так или иначе, решение найдено.
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.Похоже, неверно истолковал ваше сообщение. Эмоции.
>[оверквотинг удален]
> Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока
> мне эта идея кажется безумной и наверняка можно упереться в "заточенность"
> архитектуры спам-фильтра.
> Мне на глаза попался opennlp, и вроде бы в нем есть необходимый
> функционал, но очень плохо документирован, во всяком случае внешние команды оболочки
> (API пока тем более для меня темный лес).
> Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...
> Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это"
> поддерживало обработку русского языка и было достаточно документировано.
> Спасибо.Сам себе: зря парился, спам-фильтр bogofilter отлично подошел для этих целей.
# echo "Наш замечательный текст" | bogofilter -p | grep spamicity | awk -F"," '{print $3}'
spamicity=0.520000