Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.
Это при наличии наработок и знаний. Вообще-то я знал команды, которым удавалось сделать более-менее приличный поисковик, но дальше этого дело обычно не заходило и все быстро валилось. :(
Какое отношение тема имеет к поисковым технологиям? Переношу топик.
Запустили новую версию Новотеки.
Теперь она умеет не только рубрицировать новости, но и собирать сюжеты, показывающие развитие событий во времени, и при этом скрывать "почти" дубли, сильно раздражающие обычного пользователя.
Определенно, для коммерческих сайтов вроде интернет-магазинов имеет смысл ставить аналог adSense и на свои страницы, и на страницы сайта, где они хотят рекламироваться. Тогда на странице новости о модном крутом телефоне контекст будет подбирать что-нибудь релевантное.
Вы все правильно поняли. Это же исходники одного и того же проекта, распространяемого под лицензией GNU.
Пока нет времени, чтобы все наладить и обновить. Позже.
Я прекрасно помню (и без моего поиска, который установлен на этом сайте) все, о чем я здесь говорил, и что-то не припомню, чтобы кто-то аргументированно доказал обратное.
В исходный код - да, однако неоднократно имел возможность оценивать результаты и качество их работы.
И если вы полагаете, что СУБД в этих поисковиках за это время стали работать быстрее, или же разработчики изобрели какие-то невероятные алгоритмы, то вы глубоко заблуждаетесь.
Или же докажите обратное.
А что конкретно Вы ищете? Все ведь зависит от стоящей задачи.
Я имел в виду поисковик на SQL базе, конечно.