Что нужно выбрать из всего множества слов, которыми можно описать все статьи в интернете? - Яндекс

Наблюдения за индексацией статей

speedre13 · 2008-03-10T15:35:47.0000000Z

Вот. Решил в этом году выбраться в люди :) Хочу привести свои наблюдения по поводу индексации статей Яндексом. Итак, вообще за все время сложилось впечатление, что Яндекс не умеет различать копии контента, хотя давайте по порядку. Я проводил, что-то вроде исследований на нахождение статей разных тематик и в разных поисковиках (ну сейчас говорю про Яндекс) и для себя выяснил, что "найти" идентичные статьи в интернете (иногда даже те, которые на 100% скопированы) поисковая система практически не может и дело даже не в том есть такие технологии или нет, а в том на каком сайте и где размещена статья! Поисковики не умеют выделять столбцы где написана сама статья. Пауки читают все подряд и в индекс попадает не только статья, но и другое содержимое сайта такие как 1) навигация 2) новости 3) другое. Всё мною перечисленное убивает 10-20% неуникальности статей. Далее в дело включается поисковая система. Она видит, что некоторые части статьи совпадают с теми что есть в индексе. Ну и пусть, главное что не на .... 70%. Это лично моё сложившееся мнение про "неуникальность". Здесь главное 1) сменить заголовок статьи (полностью) 2) изменить самый 1 абзац статьи или же первые 200 знаков или 10% от количества символов в статье, но не меньше 200. Почему именно так. По ходу изучения свойств индексации Яндекса я для себя решил, что его возможности по сканированию ВСЕГО интернета ограничены. Да он старается вобрать в себя весь контент сети, однако, когда речь заходит о дублировании он (как я лично думаю) сканит первые 1000-1500 символов и все. Иначе бы его сервер (как опять же думаю я) вскипел бы :idea:. Слишком много инфы и по 1 000 000 раз её нужно прогнать туда-сюда. Не в тему конечно но что касается Google - то же самое, однако лично я считаю, что он сканит до 1000 символов (от 500-1000). Критики .... прошу сюда, только сильно меня не бейте. :D:

[Удален]

11 марта 2008, 06:33

#11

WSGU:
speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

Угу.😆

Только они при этом все их показывают. Что отдельные строки, что абзацы, статьи, пресс-релизы новостей и целые произведения.

95

Freestyler

11 марта 2008, 07:01

#12

speedre13, думаю, здесь вы найдёте ответы на свои вопросы:

http://company.yandex.ru/grant/2005/07_Kuznetsov_102820.pdf

Да и остальным интересно будет почитать :)

С уважением, Александр ompro.ru (http://ompro.ru)

WU

178

WSGU

11 марта 2008, 08:03

#13

Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.

93

TimeBomb

11 марта 2008, 08:37

#14

speedre13:

...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...

Молодой человек, откуда все эти цифры? Это бред, а не "исследование". Разберитесь сначала.

95

Freestyler

11 марта 2008, 09:48

#15

WSGU, может быть стоит сделать выборку по весам слов?

93

TimeBomb

11 марта 2008, 10:04

#16

Freestyler, а собственно в статье на которую дана ссылка есть и такое. =))

База с весами по крайней мере существует в природе. Вот только критерии "значимости" того или иного слова принятые в самой ПС все равно придется на кофейной гуще гадать.

ИМХО там не только частотность (веса по сути из нее вытекают) влияет.

WU

178

WSGU

11 марта 2008, 10:28

#17

Freestyler:
WSGU, может быть стоит сделать выборку по весам слов?

Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.

Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.

Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")

77

Senslis

11 марта 2008, 10:42

#18

Абсолютно согласен с тем, что Важен ресурс. Если Вы стабильно обновляетесь и на сайте присутствует уникальный контент - Вы категория B, Говносайты категория С, ну а самое золото партии А, такие как yandex. Это понятие есть. Правда есть ещё некоторые разветвления...

Хочешь зарабатывать: sape (http://www.sape.ru/r.1d182df653.php) и linkfeed (http://www.linkfeed.ru/1593)! Помогу новичкам! Советую партнёрку сервиса маскировки sms-сообщений: SMS-Maska (http://www.sms-maska.ru/i/4MCiePu3HHWQ2IjdB7y8wQ--/).

3 месяца Google не Hetzner начал выгонять хостеров Перевёл сайт на HTML5

T

38

Tmp

11 марта 2008, 12:15

#19

TimeBomb:
Сообщение от speedre13
...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...

серьезный инсайд :D

93

TimeBomb

11 марта 2008, 14:38

#20

Freestyler, WSGU, большое спасибо, получил настоящее удовольствие от прочтения обеих статей.

Что бы хотелось сказать:

1. В первой статье очень понравились две идеи: первая - брать в шинглы весь документ:

отступ между началом соседних шинглов 1

,

а затем выбирать для "отпечатка" только случайно, но фиксированно отобранный (когнитивный диссонанс?! =))) набор этих шинглов. Должно очень существенно экономить ресурсы.

Вторая: построение по сути "инвертированного файла" шинглов. Просто и со вкусом.

2. по поводу выборки из 2000 слов - имхо маловато, т.к. во-первых, это словарный запас четырехлетнего ребенка, во-вторых, если опираться на частотные характеристики (будь они неладны) и выбирая "средние" по значимости слова в этот набор, мы просто обязаны получить шлак "ни-о-чем" =))

Хотя, учитывая, что в этой статье речь идет о фильтрации сниппетов, но никак не коллекции документов всей сети - может и хватить.

Что делать, чтобы попасть в ответы Google Bard

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Наблюдения за индексацией статей