Здравствуйте все!помогите выбрать open source web search engine
он должен крутиться под линукс, быть написан на С/C++ (предпочтительнее), возможно java
поддержка какой нить SQL database (MySQL например чтоб не париться)
самое главное - быстрое выкачивание веб контента
менее важно - его быстрое индексирование
также важна поддержка как можно большего количества типов и форматов контента например PHP, xHTML, XML, MS Office, PDF, ZIP files, java script, images, mp3 and etc.
он должен поддерживаться комьюнити(не мёртвый проект)
жалательно чтобы исходники были хорошо задокументированы
похоже что могут подойти
http://mnogosearch.org/
http://lucene.apache.org/nutch/
http://webglimpse.net/
http://www.aspseek.org/
но по сути кроме нутча не известно могут ли они справляться с большими объёмами данных
есть ещё куча других которые нацелены на intranet но они не катят
может кто чего использует? советы, ссылки, мысли... всё приветствуется!
заранее благодарен за ответы