Наблюдения за индексацией статей

123
[Удален]
#11
WSGU:
speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

Угу.😆

Только они при этом все их показывают. Что отдельные строки, что абзацы, статьи, пресс-релизы новостей и целые произведения.

Freestyler
На сайте с 08.11.2006
Offline
95
#12

speedre13, думаю, здесь вы найдёте ответы на свои вопросы:

http://company.yandex.ru/grant/2005/07_Kuznetsov_102820.pdf

Да и остальным интересно будет почитать :)

С уважением, Александр ompro.ru (http://ompro.ru)
WU
На сайте с 07.10.2007
Offline
173
#13

Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.

TimeBomb
На сайте с 19.07.2005
Offline
93
#14
speedre13:

...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...

Молодой человек, откуда все эти цифры? Это бред, а не "исследование". Разберитесь сначала.

Freestyler
На сайте с 08.11.2006
Offline
95
#15

WSGU, может быть стоит сделать выборку по весам слов?

TimeBomb
На сайте с 19.07.2005
Offline
93
#16

Freestyler, а собственно в статье на которую дана ссылка есть и такое. =))

База с весами по крайней мере существует в природе. Вот только критерии "значимости" того или иного слова принятые в самой ПС все равно придется на кофейной гуще гадать.

ИМХО там не только частотность (веса по сути из нее вытекают) влияет.

WU
На сайте с 07.10.2007
Offline
173
#17
Freestyler:
WSGU, может быть стоит сделать выборку по весам слов?

Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.

Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.

Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")

Senslis
На сайте с 26.08.2006
Offline
77
#18

Абсолютно согласен с тем, что Важен ресурс. Если Вы стабильно обновляетесь и на сайте присутствует уникальный контент - Вы категория B, Говносайты категория С, ну а самое золото партии А, такие как yandex. Это понятие есть. Правда есть ещё некоторые разветвления...

Хочешь зарабатывать: sape (http://www.sape.ru/r.1d182df653.php) и linkfeed (http://www.linkfeed.ru/1593)! Помогу новичкам! Советую партнёрку сервиса маскировки sms-сообщений: SMS-Maska (http://www.sms-maska.ru/i/4MCiePu3HHWQ2IjdB7y8wQ--/).
T
На сайте с 22.11.2006
Offline
38
Tmp
#19
TimeBomb:
Сообщение от speedre13
...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...

серьезный инсайд :D

TimeBomb
На сайте с 19.07.2005
Offline
93
#20

Freestyler, WSGU, большое спасибо, получил настоящее удовольствие от прочтения обеих статей.

Что бы хотелось сказать:

1. В первой статье очень понравились две идеи: первая - брать в шинглы весь документ:

отступ между началом соседних шинглов 1

,

а затем выбирать для "отпечатка" только случайно, но фиксированно отобранный (когнитивный диссонанс?! =))) набор этих шинглов. Должно очень существенно экономить ресурсы.

Вторая: построение по сути "инвертированного файла" шинглов. Просто и со вкусом.

2. по поводу выборки из 2000 слов - имхо маловато, т.к. во-первых, это словарный запас четырехлетнего ребенка, во-вторых, если опираться на частотные характеристики (будь они неладны) и выбирая "средние" по значимости слова в этот набор, мы просто обязаны получить шлак "ни-о-чем" =))

Хотя, учитывая, что в этой статье речь идет о фильтрации сниппетов, но никак не коллекции документов всей сети - может и хватить.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий