Вылет страниц из яндекса Причины?

12
Step40
На сайте с 12.02.2009
Offline
245
1565

Что то мне начало казаться что ситуация с вылетом страниц даже на старых сайтах которые фиг знает сколько просидели в индексе...последние пару месяцев судя по реву на серче начинает приобретать массовый характер?

Я про то что Загружено роботом одно количество страниц а Страниц в поиске совершенно другое...

Вот я и подумал а не начался ли в Яндекс ввод обещанных Садовским репрессий против искусственных текстов? Которые он обещал на РИФ+КИБ 2010?

Напомню его слова...

А. Садовский: - Наша задача заключалась в том, чтобы научить машину отличать искусственные тексты, которые пользователю не нужны, от хороших, нормальных, естественных текстов. И нет никаких проблем, чтобы определить белую зону и черную зону, есть еще некоторая серая зона – над которой мы работаем. Понятно, что машина не внедрит что-то, до тех пор, пока точность определения белой зоны не будет процентов 99. То есть, каждая ошибка в белой зоне страшна. Потому что нас, в первую очередь интересует то, что находится в белой зоне, черная и серая зоны для нас не так важны. Самое главное для нас – не навредить. Если вы хотите в ТОП, если вы пишете тексты, которые не такие же как в ТОПе, а такие, как нужны людям, и попали под какие-то наши пессимизации – это наша ошибка. А если вы пытаетесь искать границы и подстраиваться под поисковую машину, извините, но с вами может быть все что угодно.

Особенно интересно деления на зоны...

Черная это понятно то что машине легко определить

1 плохой скан

2 машинный рерайт

3 синомайз

4 Еще что то?

5 Оптимизированный текст? выделения там все такое ...нет это я проверил

А вот как быть с белой зоной?

1 Блоги? вряд ли иначе было бы их полно в топах?

2 продающие тексты?

3 связка запрос-вопрос ответ на него?

что том не ни чего в голову не приходит?

Интересно мнение сообщества об этом?

[Удален]
#1

У меня такое ощущение, что просто затянули гайки. До этого в поиск влезло все, что могло влезть (фильтры, навигация, дубли).

Пора выкинуть эти страницы, почистить базу. Что было и сделано. ИМХО.

vandamme
На сайте с 30.11.2008
Offline
675
#2

алгоритмы меняются постоянно, продолжайте работать и все у вас получится

Fruit
На сайте с 15.07.2008
Offline
166
#3
Step40:
последние пару месяцев судя по реву на серче начинает приобретать массовый характер?

Кстати, смотрю на эти посты круглыми глазами. За последнее время не замечал ничего подобного.

Даже, если предположить, что это происходит и происходит именно из-за искусственных/полуискусственных текстов, не понятно зачем выкидывать страницы? Достаточно было бы ставить им релевантность ниже плинтуса: пользователи их в выдаче всё равно вряд ли бы увидели, а вот оптимизаторам сложнее было бы подстраиваться под новые требования Яндекса.

[Удален]
#4

Есть сайты на копипасте, но которые обновляются часто, и которые действительно читают. Такие висят в индексе.

Как это не банально, но нужно стремится для людей делать сайты.

Jaf4
На сайте с 03.08.2009
Offline
804
#5
Fruit:
Кстати, смотрю на эти посты круглыми глазами. За последнее время не замечал ничего подобного.

Тоже ничего не выпадает из страниц, только галереи +/- несколько страниц из-за того, что там текста почти нет, но там каждый раз такая песня, то залезет, то выпадет. Выпал экспериментальный псевдо-магазин на джумле (быстро выпал, буквально за пару месяцев) и беспризорная доска объявлений на yabl, с которой я игрался пару лет назад и позже просто забыл, когда выпала даже сказать не смогу.

Jaf4 добавил 21.09.2010 в 23:53

НетИмени:
Внешне видно было, что текст из книг, но как яндекс вычислил такой текст мне не очень понятно..

У сосканированного и распознанного текста есть ряд признаков, например прога при распознавании путает знаки препинания, в тексте присутствуют типичные ошибки и "опечатки", когда буквы распознаются неправильно.

New! NVMe VPS от SmartApe.ru (https://goo.gl/eoYYkS)
Alexdom
На сайте с 04.07.2010
Offline
60
#6

Скан текст очень хорошо определяется, даже на глаз. Весь подобный текст требует тщательной обработки и законченности. Банальное определение скан текста это его склеивание. То есть робот клеит несколько страниц и оценивает алгоритмом схожесть текста на продолжение. Либо Яндекс научился не выдавать в поиск страницы PDF, но при этом хранит тексты в базе и чудненько находит подобный контент. Второй вариант более простой и логичный, требующий меньшей оценки и более простого алгоритма, исключая возможность ошибки. ;)

тысяча одна чашка кофе, тысяча две чашка кофе, тысяча три.... не помогает!
cscope
На сайте с 13.02.2005
Offline
525
#7
Step40:

1 плохой скан

Возможно, хотя из сайтов со сканированным контентом у меня ни один не вылетел на несколько лет.

Step40:

2 машинный рерайт
3 синомайз

Это одно и тоже и давно уже определяется яндексом.

Step40:

4 Еще что то?
5 Оптимизированный текст? выделения там все такое ...нет это я проверил

Думаю, там целый букет признаков, собранных асессорами вручную, в том числе возможно поведенческие факторы.

А вообще Садовский говорит, то что ему выгодно, фильтруйте информацию.

Хочу все знать
На сайте с 04.12.2009
Offline
17
#8

Сдл, нет скана и прочей лабуды 100% уник,ссылки не продаю, вылетело 600 страниц((

N
На сайте с 08.08.2006
Offline
133
#9

Касательно серой или черной зоны:

Мало текста, как вариант. Страница на которой скажем 100 знаков. Нужность такой страницы немного странновата.

Думаю, что ещё вариант оценки полезности страницы, может заключаться в кол-ве заходов и посещений этих страниц.

Касательно белой зоны:

Не уверен в том, что её можно и нужно определять.

Это всё то, что не входит в серую и черную.

Это 100% уникальный контент, я думаю, что возможно стиль написания, фиг знает.

Аналитик
Alexdom
На сайте с 04.07.2010
Offline
60
#10
Хочу все знать:
Сдл, нет скана и прочей лабуды 100% уник,ссылки не продаю, вылетело 600 страниц((

Ушел контент, подкачивайте ссылками, закладками, иначе контент быстро становится уникальным на другом сайте :(

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий