Наблюдения за индексацией статей

12 3
speedre13
На сайте с 03.08.2006
Offline
114
2838

Вот. Решил в этом году выбраться в люди :)

Хочу привести свои наблюдения по поводу индексации статей Яндексом. Итак, вообще за все время сложилось впечатление, что Яндекс не умеет различать копии контента, хотя давайте по порядку.

Я проводил, что-то вроде исследований на нахождение статей разных тематик и в разных поисковиках (ну сейчас говорю про Яндекс) и для себя выяснил, что "найти" идентичные статьи в интернете (иногда даже те, которые на 100% скопированы) поисковая система практически не может и дело даже не в том есть такие технологии или нет, а в том на каком сайте и где размещена статья!

Поисковики не умеют выделять столбцы где написана сама статья. Пауки читают все подряд и в индекс попадает не только статья, но и другое содержимое сайта такие как 1) навигация 2) новости 3) другое. Всё мною перечисленное убивает 10-20% неуникальности статей.

Далее в дело включается поисковая система. Она видит, что некоторые части статьи совпадают с теми что есть в индексе. Ну и пусть, главное что не на .... 70%. Это лично моё сложившееся мнение про "неуникальность".

Здесь главное 1) сменить заголовок статьи (полностью) 2) изменить самый 1 абзац статьи или же первые 200 знаков или 10% от количества символов в статье, но не меньше 200.

Почему именно так. По ходу изучения свойств индексации Яндекса я для себя решил, что его возможности по сканированию ВСЕГО интернета ограничены. Да он старается вобрать в себя весь контент сети, однако, когда речь заходит о дублировании он (как я лично думаю) сканит первые 1000-1500 символов и все. Иначе бы его сервер (как опять же думаю я) вскипел бы :idea:. Слишком много инфы и по 1 000 000 раз её нужно прогнать туда-сюда.

Не в тему конечно но что касается Google - то же самое, однако лично я считаю, что он сканит до 1000 символов (от 500-1000).

Критики .... прошу сюда, только сильно меня не бейте. :D:

den78ru
На сайте с 12.04.2006
Offline
395
#1

А что бить-то? Неужели не усвоили ещё, что то, что работает сейчас чуть позже может перестать? Сейчас вполне возможно хватает и той технологии, что Вы описали, а где гарантия, что через 3-5 месяцев эти статьи не улетят в топку? К тому-же качество передачи ссылочного Вы не исследовали, а только индексацию.

Не секрет, что для качественного и долгосрочного продвижения заказывают на 100% уникальные тексты и не всегда у рерайтеров, бывает копирайтеру по 5-8$ за 1000 знаков платят или сами пишут.

Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.
LN
На сайте с 03.07.2007
Offline
20
#2

speedre13, что мешает яндексу брать две три строчки из разных кусков текста страницы и проверять их на плагиат и если есть сомения, то брать по больше строчек и если все еще есть сомнения - то сканить весь текст на плагиат? Про это не думали?

Куплю постоянные ссылки в 1кл. от главной ПР5,6,7,8. SeoZavr: Биржа купли/продажи площадок под статьи (http://seozavr.ru/index.php?id=282)
speedre13
На сайте с 03.08.2006
Offline
114
#3

latiNOS

Думал. В основном я искал статьи в поиске Яндекса и в других поисковиках + на своих сайтах. Получилось, что Яндекс убирает до 30% (повторюсь) "(иногда даже те, которые на 100% скопированы)".

Поисковому роботу не объяснить где статья, а где "1) навигация 2) новости 3) другое"

Конечно я не призываю плодить копии. Лучше конечно самому писать....

Владислав
На сайте с 22.02.2007
Offline
186
#4
latiNOS:
то сканить весь текст на плагиат? Про это не думали?

Уж слишком велика вероятность сомнения, равно как и сканирования рунета на поиск плагиата... Что находиться "само собой", бот определяет плагиат сам, иногда не определяет сам, тогда прокатывает...

Читайте книжки, больше читайте книжки на самом деле...
cruzoe
На сайте с 04.06.2007
Offline
52
#5

Вопрос очень сложный, а вы (на мой взгляд) подошли к его изучению слишком поверхностно. Сканит каждый поисковик страницы, а не только тексты и у каждой ПС есть свои ограничения на объем выкачанной (и индексируемой) информации со страницы (например картинки).

Далее по поводу плагиата. Яндекс, как и любой другой поисковик не должен искать (или не искать) ворованные тексты, поисковик должен отдавать пользователю релевантные сайты на его (пользователя) запрос, и исключение из поиска дублированного контенета это всего лишь частный случай решения этой задачи (качественной выдачи), которая осложняется, к тому же, отсечением нечетких дублей, например, статей созданных при помощи популярных сегодня синонимайзеров.

Это раз, а два, это невозможность по некоторым запросам в принципе представить не дублированную текстовую информацию - например марка конкретного товара - все релевантные тексты без всяких синонимайзеров будут как минимум нечеткими дублями, но это же не значит, что сайты разместившие такие тексты с описанием конкретного товара должны попасть под санкции ПС?

тут можно недорого купить уникальные комментарии для своего форума или блога (http://advego.ru/10rsbv4nvq)
SA
На сайте с 12.02.2006
Offline
142
#6

автор, вы про шинглы никогда не слышали? отличная технология

speedre13
На сайте с 03.08.2006
Offline
114
#7

cruzoe вот я писал "Ну и пусть, главное что не на .... 70%. Это лично моё сложившееся мнение про "неуникальность". когда я делал такие выводы я основывался на нескольких экспериментах (не со своими сайтами). Эксперимента было 2 и все в 2007.

Согласен - тема очень сложная.

Вот что ещё забыл написать. Иногда (да почти всегда :) ) введя один и тот же текст статьи получаешь не то на что рассчитывал зайти (допустим есть 3 сайта с одинаковыми статьями - Даём запрос и видим статьи во всех проиндексированы и не склеены, но один и тот же абзац не выдает)

В последние месяцы складывается мнение, что поисковик склеивает или выражаясь по моемы - стирает часть статьи из своего индекса если ему что-то не нравится (там уж их поисковые заморочки) следовательно ссылка (если она не повторяется по названию) индексируется даже если перед поисковиком 100% копия (правда честно меня интересует больше проиндексированность статьи ;) .

seo-alex простите но шилинг - это слишком замудренная система, которая сама себя может сотни раз перемудрить, поэтому вряд ли её используют серьёзные поисковики, хотя это мое мнение.

N
На сайте с 08.08.2006
Offline
133
#8

А Вы не думали, что если Вы не смогли найти вторую такую статью, то это как раз и значит, что Яндекс её либо поклеил, либо просто она не папала в индекс из-за не уникальности ?

А Также я Вам скажу, что навигацию сайта Яндекси видит очень прекрасно. Затащите в панель сайт.

И сами поглядите, внутренние ссылки сайта.

Еслиб он не видел навигацию, он каждое меню, расценивал как ссылка. А такого нет, если не дублируется само меню в футере, при чём несколько по другому.

Что скажете ?

Аналитик
speedre13
На сайте с 03.08.2006
Offline
114
#9

Nicola - да нет статью то я нашел, вот только в странице поиска она отображалась не так как первая, хотя 100% идентичная и по некоторым строчкам вернее абзацам не мог найти т.е. вводил абзац - первая есть 2 нет, вводил другое 1 есть и вторая есть

WU
На сайте с 07.10.2007
Offline
173
#10

speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий