Генеральная уборка в Яндексе?

SS
На сайте с 03.09.2004
Offline
141
#21

aka352,

К сожалению на графике нет чисел, а то можно было бы попробовать увязать количество страниц в базе яндекса и апдейты.

Ну я понимаю, соседние темы читать не умеем и считать тоже.

Зря что ли Профессор говорил - минус 14% от предыдущего числа, теперь еще какой-то. Прикиньте примерно, сколько это есть на графиках, приведенных aka352.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт
[Удален]
#22

Ну, что господа оптимизаторы, чистка не закончена. Вот последние данные после сегодняшнего апдейта:

Число проиндексированных документов опять уменьшилось:

Соответственно уменьшился размер базы:

По прежнему уменьшается средний размер документа(Кб):

И на этом фоне всеобщего падения, как ни в чем не бывало, продолжается увеличиваться число проиндексированых серверов:

По первым 3-м графикам видно характерное замедление скорости падения. Видимо в следующий апдейт еще будет наблюдаться уменьшение базы. А вот через один - уже должно все нормализоваться.

N
На сайте с 18.05.2003
Offline
100
#23

Скорее всего работают давильщики нечетких и (или) четких дублей. Задача довольно ресурсоемкая и требующая значительного времени.

Уменьшение размера документов возможно связано с отказом от хранения в базе повторяющихся элементов на сайте (для улучшения качества определения нечетких дублей, все-равно требовалось решать задачу определения элементов оформления).

===========

Из области фантастики, (но возможно в недалеком будущем):

давка каталогов ссылок:

1) если за вычетом элементов оформления и целиковых предложений, встречающихся в инете не менее 10 раз, отношение длины текста в ссылках к полной длине текста не превышает 0,5

2) отношение длины текста в ссылках к полной длине текста на странице (без вычетов) не превышает 0,1,

тогда:

вероятность, что это страница каталога ссылок, не имеющая уникального содержания и не представляющая практической ценности для пользователей сети превышает 99,9%

:)

========

Dm
На сайте с 11.03.2002
Offline
108
Dm
#24
Newm:

1) если за вычетом элементов оформления и целиковых предложений, встречающихся в инете не менее 10 раз, отношение длины текста в ссылках к полной длине текста не превышает 0,5
2) отношение длины текста в ссылках к полной длине текста на странице (без вычетов) не превышает 0,1,

тогда:

вероятность, что это страница каталога ссылок, не имеющая уникального содержания и не представляющая практической ценности для пользователей сети превышает 99,9%

:)
========

Откуда такие цифры?

Я за ДСДЛ (/ru/forum/135358)
Angelika
На сайте с 19.08.2005
Offline
58
#25
Скорее всего работают давильщики нечетких и (или) четких дублей. Задача довольно ресурсоемкая и требующая значительного времени.

Если это так, то приходится признать, что в Рунете как минимум 20% документов представляли из себя дубли / нечеткие дубли

Интересно другое - трафик с Яндекса на различные ресурсы не снижается, хотя некоторые из них потеряли до 40% страниц.

V
На сайте с 25.02.2003
Offline
176
#26
Angelika:

Интересно другое - трафик с Яндекса на различные ресурсы не снижается, хотя некоторые из них потеряли до 40% страниц.

я бы даже сказал, что на некоторые ресурсы общий трафик не снижается, зато он(трафик) становится более тематическим, при этом действительно страниц уменьшилось уже раза в 2, по сравнению с летом.

Работа в интернет, реальная оплата, не партнерка (http://www.vjazanie.ru/job.php)
Dm
На сайте с 11.03.2002
Offline
108
Dm
#27
Angelika:
Интересно другое - трафик с Яндекса на различные ресурсы не снижается, хотя некоторые из них потеряли до 40% страниц.

Это нормально, ведь основные точки входа для большинства ресурсов это морды или главные страницы раскрученных разделов. Видимо, пропадают не самые интересные страницы...

Может быть нам стоит вспомнить, что Яндекс отслеживает клики в результатах поиска... Может быть сквозной, всетематический CTR говорит что можно удалять?

Angelika
На сайте с 19.08.2005
Offline
58
#28
Это нормально, ведь основные точки входа для большинства ресурсов это морды или главные страницы раскрученных разделов. Видимо, пропадают не самые интересные страницы...

Дима, это не совсем так. Достаточно большой вес имеют переходы по низкочастотникам, а суммарный трафик по ним зависит от количества документов.

К сожалению не могу сказать, какие именно страницы пропадают.

В общем явно есть над чем подумать.

Dm
На сайте с 11.03.2002
Offline
108
Dm
#29
Angelika:
Дима, это не совсем так. Достаточно большой вес имеют переходы по низкочастотникам, а суммарный трафик по ним зависит от количества документов.
К сожалению не могу сказать, какие именно страницы пропадают.
В общем явно есть над чем подумать.

Вы говорите о больших, оптимизированных сайтах.. Как Вы думаете, много ли их? ;)

Angelika
На сайте с 19.08.2005
Offline
58
#30

Вы говорите о больших, оптимизированных сайтах.. Как Вы думаете, много ли их?

у меня один и это собственно и есть предмет переживаний... :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий