Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...
Какие есть мысли?

Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.

Это будет стоить от 300 до 1000 тыс уе и затянется года на два
(опять же энтузиазм/знания) .

Как всегда можно все суммы помножить на два.

Это при наличии наработок и знаний. Вообще-то я знал команды, которым удавалось сделать более-менее приличный поисковик, но дальше этого дело обычно не заходило и все быстро валилось. :(

Какое отношение тема имеет к поисковым технологиям? Переношу топик.

Кроме того, явно не хватает подкластеров, которые бы четко отделили одно связанное событие от другого в пределах одного кластера. В будущем они появятся.

Запустили новую версию Новотеки.

Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.

Вот предположите, что есть у нас аналог AdSense и мы его вешаем на сайт. И на этом сайте публикуется обзор нового модного крутого телефона. Так вот, в Рунете, как видно, нет и четырех релевантных объявлений под такую тему. Что будем показывать?

Определенно, для коммерческих сайтов вроде интернет-магазинов имеет смысл ставить аналог adSense и на свои страницы, и на страницы сайта, где они хотят рекламироваться. Тогда на странице новости о модном крутом телефоне контекст будет подбирать что-нибудь релевантное.

Т.е. подозреваю, что производительность и функциональность у нах одинаковая или почти одинвковая.

Вы все правильно поняли. Это же исходники одного и того же проекта, распространяемого под лицензией GNU.

Пока нет времени, чтобы все наладить и обновить. Позже.

Я не хочу вступать с вами в никакие разборки, если вас действительно интересует именно этот вопрос - воспользуйтесь поиском по форуму, - в тех местах, где я счёл нужным сделать, а вас поправил.

Я прекрасно помню (и без моего поиска, который установлен на этом сайте) все, о чем я здесь говорил, и что-то не припомню, чтобы кто-то аргументированно доказал обратное.

вы сами признались, что последний раз смотрели на mnogosearch пару-тройку лет назад, - это уже значительно устаревшая информация, именно не соответсвующая действительности...

В исходный код - да, однако неоднократно имел возможность оценивать результаты и качество их работы.

И если вы полагаете, что СУБД в этих поисковиках за это время стали работать быстрее, или же разработчики изобрели какие-то невероятные алгоритмы, то вы глубоко заблуждаетесь.

Или же докажите обратное.

Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)

А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.

Вячеслав, Вы, наверное, хотели сказать "поисковиков на СУБД общего назначения, в частности SQL БД"?

Я имел в виду поисковик на SQL базе, конечно.

Всего: 847