Evg

Evg
Рейтинг
128
Регистрация
12.07.2004
Должность
С++
Интересы
поисковые технологии

Можно воспользоваться поиском :)

/ru/forum/42180

А по правилам забаненных каталогов, что есть название сайта?

Ведь именно с него идет ссылка.

Формат заголовка какой?

Если формат это название сайта и все, то названия вида:

интернет магазин Вася.Пупкин часто не подходит.

Для этого достаточно взлянуть например на лого сайта.

Что пишут вебмастера в поле Title это их дело, и это часто не является название ресурса.

С описание проще. В идеале, имхо, должно отвечать всего на 2 вопроса:

1. о чем сайт

2. что есть на сайте

можно самому попробовать написать:

http://spectator.ru/technology/php/php_search

сам не тестил, но может подойдет:

http://www.creater.ru/index.php?tid=26&gid=4&topic_id=26

Посмотрите на этой странице;

http://lucene.apache.org/nutch/tutorial.html

Поддержка по русски нет.

>через чур проблематично с c++

ну я не о конкретном языке. Чтоб скомпилированные файлы были в исходнике :)

Чуть вернусь назад:

декодировать на наданный момент по времени с ZEND, Ioncube и base64 займет не более 20 секунд на файл. И это даже не обсуждается :)

ИМХО, обращение к чему угодно, режется минут на 20.

Ед. вариант самому ставить скрипт, введя в его состав файлы c++ или подобные. Т.е. самому собирая их на сервере автора.

Стучитесь в личку - постараюсь помочь.

Одному тяжело поднимать поисковую систему, имхо, ищите и заинтересуйте людей.

Вы знаете, багов там так много, что перечислять их тут не представляется возможным :(

Посмотрите: http://www.nabble.com/Nutch-f362.html

Вот, реализация stemmer - а для 7.2 (русский).

Вот где можно его скачать:

http://adre.ru/src.tar

Я постил его на западе, но ссылку к сожалению уже не помню.

Вот еще информация:

http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system

http://wiki.media-style.com/display/nutchDocu/setup+multiple+search+sever

http://issues.apache.org/jira/browse/NUTCH

ИМХО, будущая версия 8.0 на данный момент, очень сырая. Исправляются множества багов, и ближайшее время не советую ее использовать.

Версия 7.2 более менее оптимальная для экспеременов. В ближайшее время стемминга для этой версии будет выложен.

(если кому надо срочно, могу скинуть, стучитесь в ПМ)

Однако на данный момент Adre работает именно с морфологическим словарем, ест. купленным. Поиск расположен на 3 серверах.

Всего: 373