The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Тематический каталог: Поиск похожих слов на Perl (нечеткий п..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Тематический каталог: Поиск похожих слов на Perl (нечеткий п..."  +/
Сообщение от auto_topic on 26-Авг-05, 22:24 
Обсуждение статьи тематического каталога: Поиск похожих слов на Perl (нечеткий поиск).

Ссылка на текст статьи: http://www.opennet.dev/base/dev/fuzzy_search.txt.html

Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Поиск похожих слов на Perl (нечеткий поиск). "  +/
Сообщение от Андрей_У on 26-Авг-05, 22:24 
Можно использовать регулярные выражения

Во время теста этого метода со словарем Зализняка (108000 слов) скорость
поиска опечаток составляла около 60000 слов в секунду.

#------------------------
#!/usr/bin/perl

#слово, которое проверяем
$query="парвоз";

#массив со словарём
@words=("пароход","паровоз","самолёт"); # и т.д.

foreach $word(@words) {
if ($word =~/^(п(.{0,2})рвоз|па(.{0,2})воз|пар(.{0,2})оз|парв(.{0,2})з|парво(.{0,2}))$/) {

print "$1"; #здесь и будет "паровоз"

} #/if;
elsif ($word =~/^(п(.{0,3})воз|па(.{0,3})оз|пар(.{0,3})з|парв(.{0,3}))$/) {

print "$1"; #здесь тоже будет "паровоз"

} #/elsif;

} #/foreach;

#------------------------

Как загнать "парвоз" в регулярное выражение (с помощью цикла!) подумай сам.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

2. "Поиск похожих слов на Perl (нечеткий поиск). "  +/
Сообщение от виктория on 25-Окт-10, 16:42 
ком
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру