Наблюдения за индексацией статей

114

speedre13

10 марта 2008, 15:35

2864

Вот. Решил в этом году выбраться в люди :)

Хочу привести свои наблюдения по поводу индексации статей Яндексом. Итак, вообще за все время сложилось впечатление, что Яндекс не умеет различать копии контента, хотя давайте по порядку.

Я проводил, что-то вроде исследований на нахождение статей разных тематик и в разных поисковиках (ну сейчас говорю про Яндекс) и для себя выяснил, что "найти" идентичные статьи в интернете (иногда даже те, которые на 100% скопированы) поисковая система практически не может и дело даже не в том есть такие технологии или нет, а в том на каком сайте и где размещена статья!

Поисковики не умеют выделять столбцы где написана сама статья. Пауки читают все подряд и в индекс попадает не только статья, но и другое содержимое сайта такие как 1) навигация 2) новости 3) другое. Всё мною перечисленное убивает 10-20% неуникальности статей.

Далее в дело включается поисковая система. Она видит, что некоторые части статьи совпадают с теми что есть в индексе. Ну и пусть, главное что не на .... 70%. Это лично моё сложившееся мнение про "неуникальность".

Здесь главное 1) сменить заголовок статьи (полностью) 2) изменить самый 1 абзац статьи или же первые 200 знаков или 10% от количества символов в статье, но не меньше 200.

Почему именно так. По ходу изучения свойств индексации Яндекса я для себя решил, что его возможности по сканированию ВСЕГО интернета ограничены. Да он старается вобрать в себя весь контент сети, однако, когда речь заходит о дублировании он (как я лично думаю) сканит первые 1000-1500 символов и все. Иначе бы его сервер (как опять же думаю я) вскипел бы :idea:. Слишком много инфы и по 1 000 000 раз её нужно прогнать туда-сюда.

Не в тему конечно но что касается Google - то же самое, однако лично я считаю, что он сканит до 1000 символов (от 500-1000).

Критики .... прошу сюда, только сильно меня не бейте. :D:

395

den78ru

10 марта 2008, 15:49

#1

А что бить-то? Неужели не усвоили ещё, что то, что работает сейчас чуть позже может перестать? Сейчас вполне возможно хватает и той технологии, что Вы описали, а где гарантия, что через 3-5 месяцев эти статьи не улетят в топку? К тому-же качество передачи ссылочного Вы не исследовали, а только индексацию.

Не секрет, что для качественного и долгосрочного продвижения заказывают на 100% уникальные тексты и не всегда у рерайтеров, бывает копирайтеру по 5-8$ за 1000 знаков платят или сами пишут.

Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.

Каким плагином для WordPress Советы по выбору Digital Упал доход

LN

20

latiNOS

10 марта 2008, 16:04

#2

speedre13, что мешает яндексу брать две три строчки из разных кусков текста страницы и проверять их на плагиат и если есть сомения, то брать по больше строчек и если все еще есть сомнения - то сканить весь текст на плагиат? Про это не думали?

Куплю постоянные ссылки в 1кл. от главной ПР5,6,7,8. SeoZavr: Биржа купли/продажи площадок под статьи (http://seozavr.ru/index.php?id=282)

114

speedre13

10 марта 2008, 16:12

#3

latiNOS

Думал. В основном я искал статьи в поиске Яндекса и в других поисковиках + на своих сайтах. Получилось, что Яндекс убирает до 30% (повторюсь) "(иногда даже те, которые на 100% скопированы)".

Поисковому роботу не объяснить где статья, а где "1) навигация 2) новости 3) другое"

Конечно я не призываю плодить копии. Лучше конечно самому писать....

186

Владислав

10 марта 2008, 16:18

#4

latiNOS:
то сканить весь текст на плагиат? Про это не думали?

Уж слишком велика вероятность сомнения, равно как и сканирования рунета на поиск плагиата... Что находиться "само собой", бот определяет плагиат сам, иногда не определяет сам, тогда прокатывает...

Читайте книжки, больше читайте книжки на самом деле...

52

cruzoe

10 марта 2008, 16:31

#5

Вопрос очень сложный, а вы (на мой взгляд) подошли к его изучению слишком поверхностно. Сканит каждый поисковик страницы, а не только тексты и у каждой ПС есть свои ограничения на объем выкачанной (и индексируемой) информации со страницы (например картинки).

Далее по поводу плагиата. Яндекс, как и любой другой поисковик не должен искать (или не искать) ворованные тексты, поисковик должен отдавать пользователю релевантные сайты на его (пользователя) запрос, и исключение из поиска дублированного контенета это всего лишь частный случай решения этой задачи (качественной выдачи), которая осложняется, к тому же, отсечением нечетких дублей, например, статей созданных при помощи популярных сегодня синонимайзеров.

Это раз, а два, это невозможность по некоторым запросам в принципе представить не дублированную текстовую информацию - например марка конкретного товара - все релевантные тексты без всяких синонимайзеров будут как минимум нечеткими дублями, но это же не значит, что сайты разместившие такие тексты с описанием конкретного товара должны попасть под санкции ПС?

тут можно недорого купить уникальные комментарии для своего форума или блога (http://advego.ru/10rsbv4nvq)

SA

142

seo-alex

10 марта 2008, 17:19

#6

автор, вы про шинглы никогда не слышали? отличная технология

114

speedre13

10 марта 2008, 18:43

#7

cruzoe вот я писал "Ну и пусть, главное что не на .... 70%. Это лично моё сложившееся мнение про "неуникальность". когда я делал такие выводы я основывался на нескольких экспериментах (не со своими сайтами). Эксперимента было 2 и все в 2007.

Согласен - тема очень сложная.

Вот что ещё забыл написать. Иногда (да почти всегда :) ) введя один и тот же текст статьи получаешь не то на что рассчитывал зайти (допустим есть 3 сайта с одинаковыми статьями - Даём запрос и видим статьи во всех проиндексированы и не склеены, но один и тот же абзац не выдает)

В последние месяцы складывается мнение, что поисковик склеивает или выражаясь по моемы - стирает часть статьи из своего индекса если ему что-то не нравится (там уж их поисковые заморочки) следовательно ссылка (если она не повторяется по названию) индексируется даже если перед поисковиком 100% копия (правда честно меня интересует больше проиндексированность статьи ;) .

seo-alex простите но шилинг - это слишком замудренная система, которая сама себя может сотни раз перемудрить, поэтому вряд ли её используют серьёзные поисковики, хотя это мое мнение.

N

133

Nicola

10 марта 2008, 18:59

#8

А Вы не думали, что если Вы не смогли найти вторую такую статью, то это как раз и значит, что Яндекс её либо поклеил, либо просто она не папала в индекс из-за не уникальности ?

А Также я Вам скажу, что навигацию сайта Яндекси видит очень прекрасно. Затащите в панель сайт.

И сами поглядите, внутренние ссылки сайта.

Еслиб он не видел навигацию, он каждое меню, расценивал как ссылка. А такого нет, если не дублируется само меню в футере, при чём несколько по другому.

Что скажете ?

Аналитик

Все вопросы про продвижению Google: расположение внутренних ссылок Яндекс кобласит

114

speedre13

10 марта 2008, 19:15

#9

Nicola - да нет статью то я нашел, вот только в странице поиска она отображалась не так как первая, хотя 100% идентичная и по некоторым строчкам вернее абзацам не мог найти т.е. вводил абзац - первая есть 2 нет, вводил другое 1 есть и вторая есть

Индексация контента Яндекс кобласит Все вопросы про продвижению

WU

178

WSGU

11 марта 2008, 06:08

#10

speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

Зачем быть уникальным в мире, где все можно скопировать

Дзен реализовал для авторов возможность вывода денег через СПБ