Решение проблемы с зеркалами в Яндексе

VT
На сайте с 27.01.2001
Offline
130
1152

Сейчас, видимо, одной из главных болезней Яндекса являются зеркала. Насколько я понимаю, если в документе меняется хоть один символ, то уже он считается другим и поэтому часто бывает, что по запросу в десятке выдаются совершенно идентичные документы, например, зеркала Citforum.

Почему бы Яндексу не применить если не к каждому предложению, то хотя бы к каждому абзацу документа какую-нибудь хэш-сумму, например MD5? В результате для данного документа будет получен массив уникальных ключей, определяющих его содержимое. Сравнивая его с подобными массивами для других документов, при идентичности ключей, скажем, на 90% можно будет утверждать, что это уникальный документ и определить его зеркала. Кроме того, с помощью подобного механизма также можно будет очень просто находить в тексте цитаты.

Единственный недостаток, конечно, в том, что индекс не будет уже строится со скоростью 25 Мбайт/с, но за все же нужно платить

kikaha
На сайте с 12.12.2000
Offline
91
#1

Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно

Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]

Скелет в шкафу или сайт за 200 баксов (http://www.legco.net/entry-89.php)
VT
На сайте с 27.01.2001
Offline
130
#2

<font face="Verdana" size="2">Originally posted by kikaha:
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]
</font>

Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.

kikaha
На сайте с 12.12.2000
Offline
91
#3

Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. Примеры тому есть (я не призываю юных порномастеров все бросить и осваивать этот метод для покорения SE - сработает наверняка, но только в ОЧЕНЬ узком сегменте, сочтенным поисковиком релевантным конкретному запросу), частенько случается, что при запросе на достаточно специальную тему - "факторы инбридинга при высокогорном разведении недоношенных тонкорунных овец" или "mature white-eye mature ebony" выдается десяток перепечаток одного и того же материала в разных изданиях, или, что еще хуже, особенно часто этим грешит Яндекс - получаем десяток ссылок на страницы с описанием на одну и ту же статью, причем самый прикол, что ссылка на саму статью далеко не всегда бывает на первом месте.

Ежели где переврал - поправьте, плз!

VT
На сайте с 27.01.2001
Offline
130
#4

<font face="Verdana" size="2">Originally posted by kikaha:
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. </font>

Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.

M
На сайте с 25.01.2001
Offline
57
#5

Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).

В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).

Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...

Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.

VT
На сайте с 27.01.2001
Offline
130
#6

<font face="Verdana" size="2">Originally posted by melkov:
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).</font>

Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?

<font face="Verdana" size="2">
В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).
</font>

А зря...

<font face="Verdana" size="2">
Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...
</font>

Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.

<font face="Verdana" size="2">
Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.
</font>

Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста

N
На сайте с 08.03.2001
Offline
22
#7

<font face="Verdana" size="2">Originally posted by melkov:
...объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины...</font>

Не понял!? Электронные магазины причем, пример можно?

[This message has been edited by Nicholas (edited 21-05-2001).]

Николай
F
На сайте с 15.11.2000
Offline
116
#8

<font face="Verdana" size="2">Originally posted by Nicholas:
Не понял!? Электронные магазины причем, пример можно?</font>

Книга "Москва-Петушки" на Озоне, книга "Москва-Петушки" на Болеро, книга "Москва-Петушки" на 24х7...

С уважением,

Александр Садовский.

M
На сайте с 25.01.2001
Offline
57
#9

Ну, чаще даже дубликатами являются карточки товаров не на страницах разных e-газинов (рассуждения про "шапку и менюшку" к ним ведь тоже относятся), а одних и тех же.

Вот, скажем, к примеру, каталог автомобильных шин. Несколько страничек с N-килобайтным текстом отличаются (кроме текста баннеров ) только на 1 цифру в названии, 2 - в температурном режиме, и 3 - в цене. Разумеется, с точки зрения "совпадения на 10%" эти странички идентичны. Но если их склеить, то кто-то не найдет цену на любимую марку шин...

Тут есть 2 пути решения "магазинной" проблемы:

1) Специальная индексация магазинов и т.д. - к этому не готов Яндекс.

2) Яндекс.Товары - к этому не готово большинство магазинов (хотя, если их хорошенько припугнуть - кто знает ? ).

Так что ждем-с...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий