URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 10049
[ Назад ]

Исходное сообщение
"Text mining - дать оценку тексту"

Отправлено booggyman , 23-Окт-15 15:08 
Добрый день, уважаемые форумчане!

Суть задачи довольно простая, на первый взгляд -
1. найти подходящую программу/доработать существующую,
2. произвести "тренировку", используя существующие тексты,
3. на ввод программы подать произвольный текст,
4. на выходе получить оценку в виде баллов (не суть в каком виде, главное это наличие оценки)

Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока мне эта идея кажется безумной и наверняка можно упереться в "заточенность" архитектуры спам-фильтра.
Мне на глаза попался opennlp, и вроде бы в нем есть необходимый функционал, но очень плохо документирован, во всяком случае внешние команды оболочки (API пока тем более для меня темный лес).
Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...

Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это" поддерживало обработку русского языка и было достаточно документировано.

Спасибо.


Содержание

Сообщения в этом обсуждении
"Text mining - дать оценку тексту"
Отправлено Andrey Mitrofanov , 23-Окт-15 15:47 
> 3. на ввод программы подать произвольный текст,
> 4. на выходе получить оценку в виде баллов (не суть в каком
> виде, главное это наличие оценки)

Я сегодня добрый:

#!/bin/bash

cat >/dev/null

echo 3+



"Text mining - дать оценку тексту"
Отправлено booggyman , 23-Окт-15 19:03 
> Я сегодня добрый:
>#!/bin/bash
> cat >/dev/null
> echo 3+

Характер Andrey Mitrofanov в 3-х строках


"Text mining - дать оценку тексту"
Отправлено Pahanivo , 23-Окт-15 20:37 
Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.


"Text mining - дать оценку тексту"
Отправлено booggyman , 24-Окт-15 10:17 
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.

Знаете, это мой первый вопрос за несколько последних лет.
То, что вы называете "мозгами, фантазией и юмором", для меня есть снобизм и агрессия.

В конечном счете, вы можете просто пройти мимо этой темы и не связываться с глупым человеком, а показать свой "мозг, фантазию, юмор" в комментариях к новостям. Впрочем, я вам не указ.

Так или иначе, решение найдено.


"Text mining - дать оценку тексту"
Отправлено booggyman , 24-Окт-15 20:07 
> Мда, молодежь пошла - ни мозгов, ни фантазии, ни юмора.

Похоже, неверно истолковал ваше сообщение. Эмоции.


"Text mining - дать оценку тексту"
Отправлено booggyman , 23-Окт-15 19:01 
>[оверквотинг удален]
> Такая программа есть, она называется спам-фильтр (отправлять текст через MTA), но пока
> мне эта идея кажется безумной и наверняка можно упереться в "заточенность"
> архитектуры спам-фильтра.
> Мне на глаза попался opennlp, и вроде бы в нем есть необходимый
> функционал, но очень плохо документирован, во всяком случае внешние команды оболочки
> (API пока тем более для меня темный лес).
> Или может уже есть что-то, основанное на муравьином алгоритме? http://math.nsc.ru/conference/zont09/reports/43Schurevich-Kr...
> Что можно взять за основу и не изобретать велосипед? Желательно чтобы "это"
> поддерживало обработку русского языка и было достаточно документировано.
> Спасибо.

Сам себе: зря парился, спам-фильтр bogofilter отлично подошел для этих целей.

# echo "Наш замечательный текст" | bogofilter -p | grep spamicity | awk -F"," '{print $3}'
spamicity=0.520000