Похожие страницы

O
На сайте с 08.03.2003
Offline
1
oSa
3323

Приветствую!

Кто-нибудь может рассказать о существующих технологиях определения похожих страниц?. Т.е. к примеру, когда google.com выдает список результатов поиска, то показывает "Найти похожие страницы" возле каждой ссылки. Так вот - КАК он определяет похожие страницы на данную?

Если это уже обсуждалось, киньте, плиз, ссылку - я не смог найти через поиск форума :) ...

wolf
На сайте с 13.03.2001
Offline
1183
#1

По схожести контента и/или backward links.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
O
На сайте с 08.03.2003
Offline
1
oSa
#2
Как писал wolf
По схожести контента и/или backward links.

собственно это понятно... я имею в виду, какие технологии могут быть использованы для определения схожести контента?

т.е. к примеру, что мне приходит на ум - это выделить клчевые слова для каждой страницы и затем искать страницы с такими же ключевыми словами. Так как сравнение по всем словам долго и неэффективно.

Но здесь не совсем понятно как определять ключевые слова для страницы, по какому критерию?

А что еще используется, какие другие алгоритмы?

spark
На сайте с 24.01.2001
Offline
130
#3
А что еще используется, какие другие алгоритмы?

это вы с Сергеем Брином беседуете? :) Его здесь пока не замечено.

Для страницы, на которой мы с вами находимся Гугль дает:

Контент, похоже, не играет решающего значения :)

Форум о поисковых системах

Форум о поисковых системах : 2.2.6 Форум о поисковых

системах, Просмотр сообщений за ...

- 37k - Сохранено - Похожие страницы

Краткая история фирмы CANON / «ViTCOM Web»

Версия для печати Краткая история фирмы

CANON Фирма Canon является крупнейшим ...

vitcom.top.lv/photo/canon/history.php3 - 8k - Сохранено - Похожие страницы

Internet Archive

Search: All Media Types ...

Описание: Working to build a digital library of internet sites and other cultural artifacts in digital form....

Раздел: Computers > Internet > Resources > Research

www.archive.org/ - 62k - Сохранено - Похожие страницы

Словарь фото терминов / «ViTCOM Web»

Версия для печати Словарь фото терминов

Авотобрэкетирование - автоматическая ...

vitcom.top.lv/photo/dictionary.php3 - 14k - Сохранено - Похожие страницы

Choise your connection speed ... Modem 56K 256Kbps 512Kbps 1Mbps ...

Choise your connection speed ... Modem 56K.

gap.infonet.ee/speed.php - 2k - Сохранено - Похожие страницы

DeletedDomains.com: The ultimate source for deleted and onhold ...

Welcome to DeletedDomains.com, the most comprehensive FREE research tool

for finding "deleted" and "on-hold" domains. Current Statistics. ...

www.deleteddomains.com/ - 12k - Сохранено - Похожие страницы

Поиск в Интернете | Персоналии

Тема: Поиск в Интернете. ...

websearch.report.ru/_5FolderID_222_.html - 29k - Сохранено - Похожие страницы

Поиск в Интернете | Новые материалы

Report.ru - сообщество экспертов, RLE Banner Network.

НА ГЛАВНУЮ СТРАНИЦУ • О ПРОЕКТЕ ...

websearch.report.ru/_5FolderID_20_.html - 14k - Сохранено - Похожие страницы

Компания Телепортал.ру

2 декабря На новом портале Репорта "Метеорология"

Вы найдете самые интересные сведения ...

www.teleportal.ru/ - 20k - Сохранено - Похожие страницы

VT
На сайте с 27.01.2001
Offline
130
#4
А что еще используется, какие другие алгоритмы?

Существует два подхода определения близости двух документов - на основе статистической модели (мера косинуса - LSA/LSI/PLSA и т.д.) и технологии, основанные на знаниях.

Стандартный алгоритм определения близости - можно рассчитать меру косинуса угла между двумя документами:

http://citeseer.nj.nec.com/ding99similaritybased.html

Обзор всех возможных методов можно почитать на

http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm

Также можно посмотреть http://www.ksl.stanford.edu/people/stolle/Papers/brants-lrec.pdf , здесь неплохое введение в тему.

O
На сайте с 08.03.2003
Offline
1
oSa
#5
Как писал spark

это вы с Сергеем Брином беседуете? :) Его здесь пока не замечено.

Для страницы, на которой мы с вами находимся Гугль дает:
Контент, похоже, не играет решающего значения :)

Сергея Брина не видел :) даже не знаю кто это....

Хм... да уж, похожесть по контенту особо не радует... Я попробовал в яндексе поискать похожие страницы - Яндекс нашел более-менее похожие по довольно общей теме, но по смыслу все-таки они не сильно похожи...

O
На сайте с 08.03.2003
Offline
1
oSa
#6
Как писал Vyacheslav Tikhonov

Существует два подхода определения близости двух документов ...

Отлично, это то что мне было надо, спасибо Вячеслав.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий