The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Открыт код исследовательского проекта по статистической оцен..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от opennews (ok) on 22-Фев-13, 19:19 
Группа исследователей из нескольких европейских университетов опубликовала (http://www.theregister.co.uk/2013/02/22/author_detection_uni.../) свои наработки в области автоматизированной оценки авторства текста на основе статистического анализа предыдущих работ. Система требует предварительного обучения для накопления статистических данные, т.е. после анализа точно принадлежащих автору работ позволяет в дальнейшем оценить является ли лицо автором произвольного текста. Код проекта написан на языке С++ и открыт (https://github.com/matthewberryman/author-detection) под лицензией GPLv2. Дополнительно доступна статья (http://www.plosone.org/article/info%3Adoi%2F10.137...) с изложением используемого в приложении математического аппарата.

Изначально проект был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение. Тем не менее, у разработки имеются большие перспективы при решении современных задач, от определения авторства электронных писем, анонимных обращений к правоохранительным органам и заметок в блогах, до выявления плагиата в научных и художественных публикациях, организации новых систем поиска в Web и задействования в средствах борьбы со спамом.

URL: http://www.theregister.co.uk/2013/02/22/author_detection_uni.../
Новость: http://www.opennet.dev/opennews/art.shtml?num=36200

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


2. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от жабабыдлокодер (ok) on 22-Фев-13, 19:52 
Спецслужбы одобряют. Вы все еще думаете, что Вы анонимны и Вас нельзя найти?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

16. "Открыт код исследовательского проекта по статистической оцен..."  +9 +/
Сообщение от pavlinux (ok) on 23-Фев-13, 02:05 
Преподы будут рефераты банить :)
---
Ну что, предлагаю открыть проект по анонимизации и обфускации текстов.
Подстановка синонимов, замена оборотов, др. греческого языка и латыни,
цепочку машинных переводов, например:

русский -> албанский -> хинди -> японский -> албанский -> хинди -> русский.
После такой цепочки первый абзац, этого сообщения, выглядит вот так  :)

Ну, у меня есть проект открытое анонимное греческое местоимение обмена деловой текст
запутывания, расположение, серии, например, другой машинный перевод латинского, предложил:


Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

26. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от Чел on 23-Фев-13, 14:11 
Опоздал, соешники тока этим и занимаются )))

Целая индустрия.

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

28. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Andrey Mitrofanov on 23-Фев-13, 15:16 
>соешники

СОИ или SEO? А, %)понял:

> тока этим и занимаются )))

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

39. "Открыт код исследовательского проекта по статистической оцен..."  –1 +/
Сообщение от The Doctor (ok) on 25-Фев-13, 11:44 
Про CEO забыл :)
Ответить | Правка | ^ к родителю #28 | Наверх | Cообщить модератору

18. "Открыт код исследовательского проекта по статистической оцен..."  +3 +/
Сообщение от бедный буратино (ok) on 23-Фев-13, 02:48 
> Спецслужбы одобряют. Вы все еще думаете, что Вы анонимны и Вас нельзя найти?

Если проверить на местных анонимах, то между ними не найдётся никакой разницы. Думают-то не они. :)

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

40. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним (??) on 25-Фев-13, 23:15 
Разумеется, vox Populi vox Dei.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

22. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от Константавр (ok) on 23-Фев-13, 09:52 
Да ладно вам, вон скандал с подделкой докторских диссертаций недавно вылез. Представьте, если каждый реферат и докторскую такой штукой проверять - как поднялся бы уровень образования :)
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

24. "Открыт код исследовательского проекта по статистической оцен..."  +5 +/
Сообщение от Аноним (??) on 23-Фев-13, 11:45 
Неужели вместо докторской подсовывали сервелат?
Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

33. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от Аноним (??) on 23-Фев-13, 19:12 
Ливерную, en masse.
Ответить | Правка | ^ к родителю #24 | Наверх | Cообщить модератору

25. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от тоже Аноним email(ok) on 23-Фев-13, 12:15 
Чтобы подтвердить авторство текста, нужны другие тексты того же автора в той же стилистике.
Вы можете с уверенностью показать на какой-нибудь реферат и утверждать, что его писал автор? Это всегда компиляция. Тем более, что стилистика научных работ - это такой диалект канцелярита, в обычной жизни ни один нормальный человек в такой манере не пишет.
Тут скорее анализ покажет, что большинство всех научных работ на русском языке написаны одним и тем же человеком. А если еще подключить детектирование характерной девиантной симптоматики...
Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

3. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним (??) on 22-Фев-13, 19:53 
стилистический и лингвистический анализ для деанонимизации анонимусов по заказу ФСБ =)
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от Аноним (??) on 22-Фев-13, 20:36 
Вообще-то Британской разведки
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

9. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от verus (ok) on 22-Фев-13, 22:13 
Неа! Британских ученых :-D
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

41. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним (??) on 25-Фев-13, 23:18 
Чего минусуете, учёные-то действительно британские.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

4. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от oneonfire on 22-Фев-13, 20:20 
Что-то не хочет оно работать, segmentation fault!
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Открыт код исследовательского проекта по статистической оцен..."  –1 +/
Сообщение от Аноним (??) on 22-Фев-13, 21:04 
> Что-то не хочет оно работать, segmentation fault!

А вот и первые запалившиеся.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

6. "Открыт код исследовательского проекта по статистической оцен..."  +2 +/
Сообщение от Аноним (??) on 22-Фев-13, 21:04 
> Дополнительно доступна статья

А на ней тест проходит? :)

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

8. "Открыт код исследовательского проекта по статистической оцен..."  +2 +/
Сообщение от YetAnotherOnanym (ok) on 22-Фев-13, 21:37 
Как раз вовремя для нашего ВАК'а.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

10. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от meequz (ok) on 22-Фев-13, 22:16 
Если оно и правда работает, угадайка на следующей грелке будет ещё весёлей, чем обычно:)
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от meequz (ok) on 22-Фев-13, 22:41 
У кого-нибудь работает без сегфолта?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

12. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним email(??) on 23-Фев-13, 00:05 
Всё, п****ц мои курсовым.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

13. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от ip1981 (ok) on 23-Фев-13, 01:03 
> or (at your option) any later version.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

14. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от ip1981 (ok) on 23-Фев-13, 01:04 
https://github.com/matthewberryman/author-detection/blob/mas...

Жесть какая.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

17. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним (??) on 23-Фев-13, 02:32 
Есть такое. Ну может зато они математики хорошие...
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

29. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от freehck email(ok) on 23-Фев-13, 15:30 
А в чем проблема? Совершенно правильный код.
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

31. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от nyt email on 23-Фев-13, 17:12 
Или вот:
bool test = ValidFile(tab, nbFichier);
    if (test == true)

https://github.com/matthewberryman/author-detection/blob/mas...

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

44. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от qqq (??) on 26-Фев-13, 13:43 
> bool test = ValidFile(tab, nbFichier);
>    if (test == true)

Чтобы читать было легче. Ну или автоматически искать где требуется истинность условия. Функциональность от такой записи никак не страдает. Всё равно и
if (ValidFile(tab, nbFichier)) {...}
и
bool test = ValidFile(tab, nbFichier);
  if (test) {...}
и то, что написано у них будет преобразовано в один и тот-же код. Разве что test у них ещё где-нибудь используется.

Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

15. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от ip1981 (ok) on 23-Фев-13, 01:10 
Глядя на исходники вспоминаю http://www.youtube.com/watch?v=Oj4vXMRenFo
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

19. "Открыт код исследовательского проекта по статистической оцен..."  +2 +/
Сообщение от www2 (??) on 23-Фев-13, 07:48 
На сайте fantlab.ru тоже есть такая система. Только она применяется не для поиска автора произведения, а для оценки соответствия стиля конкретного произведения авторскому стилю. Например, произведения, написанные в соавторстве имеют меньший процент соответствия авторскому стилю каждого из авторов, чем произведения, написанные ими самостоятельно.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

23. "Открыт код исследовательского проекта по статистической оцен..."  +1 +/
Сообщение от Аноним (??) on 23-Фев-13, 10:28 
зато у этих есть новость на опеннет,а у fantlab нету
Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

34. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от PSV email on 24-Фев-13, 01:41 
Мега открытие века!

Линейный метод (mda) обогнал нелинейный (svm) в ситуации когда экспериментальных точек оказалось практически столько же сколько (чаще даже меньше) что и параметров при каждой из них.

Да, немаловажно что все подтверждено "проверенным временем" (читай --- замшелым) вариантом бутстрепа --- тривиальным "складным ножом". Очевидно просто бутсрепом посчитанные доверительные интервалы потрясали закаленное воображение авторов :)


Я так понимаю просто увидеть AUC мегаметодики невозможно в принципе (вместо ROC видим имитирующие (вольно или невольно) её псевдографики)

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

35. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Loooooker (ok) on 24-Фев-13, 17:40 
> был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение

Интересно, а с основной задачей оно справляется? Много идентифицировали авторов?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

42. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от PSV email on 26-Фев-13, 00:38 
В статье пример есть. Все что может их чудо "метод" --- выбрать максимум среди 4х авторов (представленных кучей текстов каждый) самого правдоподобного (где то в инетах были их труды по моему (ну или таких же сумасшедших лингвистов)). С ростом числа авторов "методика" не работает, скорее всего AUC метода в районе 0.6. Короче фигня, фокусники.

Вообще лингвисты радуют, они селекции феатур не ведут похоже принципиально :) И это имея их чуть ли не сотни тысяч в анализе.

Ответить | Правка | ^ к родителю #35 | Наверх | Cообщить модератору

36. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от неАноним (??) on 25-Фев-13, 07:53 
А каким образом, точнее как, они реализуют алгоритм, который сможет проанализировать намерения автора текста и его настроение во время написания текста? Это бред. Человек, он же автор текста, не робот ведь. Сегодня у человека хорошее настроение и в его тексте, не важно какой тематики, это отразится, а завтра у него плохое настроение(любимый певец погиб в автоаварии, например Алла Пугачева) и это отразится в тексте в виде определенной конструкции существительных, глаголов, деепричастий и в том числе и паразитных слов. Плюс еще ошибки станет допускать, которые до этого были не свойственны автору. Так что все это бред, весь этот статический анализ.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

43. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от PSV email on 26-Фев-13, 00:40 
> А каким образом, точнее как, они реализуют алгоритм, который сможет проанализировать намерения
> автора текста и его настроение во время написания текста? Это бред.
> Человек, он же автор текста, не робот ведь. Сегодня у человека
> хорошее настроение и в его тексте, не важно какой тематики, это
> отразится, а завтра у него плохое настроение(любимый певец погиб в автоаварии,
> например Алла Пугачева) и это отразится в тексте в виде определенной
> конструкции существительных, глаголов, деепричастий и в том числе и паразитных слов.
> Плюс еще ошибки станет допускать, которые до этого были не свойственны
> автору. Так что все это бред, весь этот статический анализ.

ну почерк у человека сохраняет свои черты даже в сложных условиях.... другое дело что работа слабая.

Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

45. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от НеАнонимВроде on 26-Фев-13, 16:32 
Рукописный да. Но не машинописный же.
Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

46. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от PSV email on 01-Мрт-13, 01:37 
ну сам процесс машинописной печати известный вариант биометрии :)
Ответить | Правка | ^ к родителю #45 | Наверх | Cообщить модератору

37. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от неАнонимВедь on 25-Фев-13, 08:16 
А вот злоумышленники воспользуются этим алгоритмом чтобы подставить кого нибут например. Это настоящий подарок для подлых людей.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

38. "Открыт код исследовательского проекта по статистической оцен..."  +/
Сообщение от Аноним (??) on 25-Фев-13, 10:51 
"Изначально проект был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение."

Ну тут цели вполне понятны, так как других более удачных инструментов для объективного установления авторства исторических документов просто не существует. Поэтому в этой безвыходной, для кого-то(кому это надо, кто эти люди, где они получают прибыль, что у них на уме, чем болеют эти люди?), ситуации можно в ШУТКУ или ради ШУТКИ или просто ради БАЛОВСТВА использовать эти алгоритмы статистического анализа. Все это можно воспринимать только как прикол или баловство, но серьезно к этому относиться нельзя.

"Тем не менее, у разработки имеются большие перспективы при решении современных задач, от определения авторства электронных писем, анонимных обращений к правоохранительным органам и заметок в блогах, до выявления плагиата в научных и художественных публикациях, организации новых систем поиска в Web и задействования в средствах борьбы со спамом."

Ну а это вообще полный бред. Потому что для того чтобы определить автора произвольного текста, действительно ли он является автором другого текста, понадобится достаточно накопленная база текста того самого автора произвольного текста(имеется ввиду наверно анонимного автора заметок в блоге).

Для борьбы со спамом это точно никак не поможет. И новым системам поиска это точно никак не пригодится.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

47. "Фоменко"  +/
Сообщение от Лукас email(ok) on 02-Мрт-13, 10:50 
а вот аналогичная отечественная работа 1974-81 года (анализ данных проводился вручную без компьютера), проверка  авторства Тихого Дона.

http://www.chronologia.org/xpon2/dop3.html

в институте я писал програмку на делфи, которая оценивала авторство по методу этой статьи. у меня она работала плохо из-за мусора в текстах в первичных данных.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру