Решение проблемы с зеркалами в Яндексе

130

Vyacheslav Tikhonov

19 мая 2001, 04:52

1183

Сейчас, видимо, одной из главных болезней Яндекса являются зеркала. Насколько я понимаю, если в документе меняется хоть один символ, то уже он считается другим и поэтому часто бывает, что по запросу в десятке выдаются совершенно идентичные документы, например, зеркала Citforum.

Почему бы Яндексу не применить если не к каждому предложению, то хотя бы к каждому абзацу документа какую-нибудь хэш-сумму, например MD5? В результате для данного документа будет получен массив уникальных ключей, определяющих его содержимое. Сравнивая его с подобными массивами для других документов, при идентичности ключей, скажем, на 90% можно будет утверждать, что это уникальный документ и определить его зеркала. Кроме того, с помощью подобного механизма также можно будет очень просто находить в тексте цитаты.

Единственный недостаток, конечно, в том, что индекс не будет уже строится со скоростью 25 Мбайт/с, но за все же нужно платить

91

kikaha

19 мая 2001, 05:15

#1

Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно

Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]

Скелет в шкафу или сайт за 200 баксов (http://www.legco.net/entry-89.php)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

19 мая 2001, 05:32

#2

Originally posted by kikaha:
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]

Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

91

kikaha

19 мая 2001, 06:46

#3

Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. Примеры тому есть (я не призываю юных порномастеров все бросить и осваивать этот метод для покорения SE - сработает наверняка, но только в ОЧЕНЬ узком сегменте, сочтенным поисковиком релевантным конкретному запросу), частенько случается, что при запросе на достаточно специальную тему - "факторы инбридинга при высокогорном разведении недоношенных тонкорунных овец" или "mature white-eye mature ebony" выдается десяток перепечаток одного и того же материала в разных изданиях, или, что еще хуже, особенно часто этим грешит Яндекс - получаем десяток ссылок на страницы с описанием на одну и ту же статью, причем самый прикол, что ссылка на саму статью далеко не всегда бывает на первом месте.

Ежели где переврал - поправьте, плз!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

19 мая 2001, 20:02

#4

Originally posted by kikaha:
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой.

Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.

M

57

melkov

20 мая 2001, 18:16

#5

Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).

В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).

Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...

Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

20 мая 2001, 19:36

#6

Originally posted by melkov:
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).

Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?

В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).

А зря...

Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...

Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.

Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.

Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста

Как ищите ключевики с Нарушения и угрозы безопасности Яндекс кобласит

N

22

Nicholas

21 мая 2001, 21:35

#7

Originally posted by melkov:
...объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины...

Не понял!? Электронные магазины причем, пример можно?

[This message has been edited by Nicholas (edited 21-05-2001).]

Николай

F

116

funsad

22 мая 2001, 04:04

#8

Originally posted by Nicholas:
Не понял!? Электронные магазины причем, пример можно?

Книга "Москва-Петушки" на Озоне, книга "Москва-Петушки" на Болеро, книга "Москва-Петушки" на 24х7...

С уважением,

Александр Садовский.

M

57

melkov

22 мая 2001, 22:31

#9

Ну, чаще даже дубликатами являются карточки товаров не на страницах разных e-газинов (рассуждения про "шапку и менюшку" к ним ведь тоже относятся), а одних и тех же.

Вот, скажем, к примеру, каталог автомобильных шин. Несколько страничек с N-килобайтным текстом отличаются (кроме текста баннеров ) только на 1 цифру в названии, 2 - в температурном режиме, и 3 - в цене. Разумеется, с точки зрения "совпадения на 10%" эти странички идентичны. Но если их склеить, то кто-то не найдет цену на любимую марку шин...

Тут есть 2 пути решения "магазинной" проблемы:

1) Специальная индексация магазинов и т.д. - к этому не готов Яндекс.

2) Яндекс.Товары - к этому не готово большинство магазинов (хотя, если их хорошенько припугнуть - кто знает ? ).

Так что ждем-с...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все что нужно знать о DDоS-атаках грамотному менеджеру