Можно воспользоваться поиском :)
/ru/forum/42180
А по правилам забаненных каталогов, что есть название сайта?
Ведь именно с него идет ссылка.
Формат заголовка какой?
Если формат это название сайта и все, то названия вида:
интернет магазин Вася.Пупкин часто не подходит.
Для этого достаточно взлянуть например на лого сайта.
Что пишут вебмастера в поле Title это их дело, и это часто не является название ресурса.
С описание проще. В идеале, имхо, должно отвечать всего на 2 вопроса:
1. о чем сайт
2. что есть на сайте
можно самому попробовать написать:
http://spectator.ru/technology/php/php_search
сам не тестил, но может подойдет:
http://www.creater.ru/index.php?tid=26&gid=4&topic_id=26
Посмотрите на этой странице;
http://lucene.apache.org/nutch/tutorial.html
Поддержка по русски нет.
>через чур проблематично с c++
ну я не о конкретном языке. Чтоб скомпилированные файлы были в исходнике :)
Чуть вернусь назад:
декодировать на наданный момент по времени с ZEND, Ioncube и base64 займет не более 20 секунд на файл. И это даже не обсуждается :)
ИМХО, обращение к чему угодно, режется минут на 20.
Ед. вариант самому ставить скрипт, введя в его состав файлы c++ или подобные. Т.е. самому собирая их на сервере автора.
Стучитесь в личку - постараюсь помочь.
Одному тяжело поднимать поисковую систему, имхо, ищите и заинтересуйте людей.
Вы знаете, багов там так много, что перечислять их тут не представляется возможным :(
Посмотрите: http://www.nabble.com/Nutch-f362.html
Вот, реализация stemmer - а для 7.2 (русский).
Вот где можно его скачать:
http://adre.ru/src.tar
Я постил его на западе, но ссылку к сожалению уже не помню.
Вот еще информация:
http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system
http://wiki.media-style.com/display/nutchDocu/setup+multiple+search+sever
http://issues.apache.org/jira/browse/NUTCH
ИМХО, будущая версия 8.0 на данный момент, очень сырая. Исправляются множества багов, и ближайшее время не советую ее использовать.
Версия 7.2 более менее оптимальная для экспеременов. В ближайшее время стемминга для этой версии будет выложен.
(если кому надо срочно, могу скинуть, стучитесь в ПМ)
Однако на данный момент Adre работает именно с морфологическим словарем, ест. купленным. Поиск расположен на 3 серверах.