Если кому интересно, сайт, о котором шла речь, вернулся в выдачу в сегодняшний апдейт в полном объеме (морда вернулась пару апдейтов назад).
Стало быть, есть такая санкция - оставить 10 страниц в индексе и все. Думаю, стоит назвать это баном (для сайтов, у которых больше 10 страниц всего :)
По моим подсчетам - 400 Мбит/с (10^5 Гбайт/мес.) канал потребуется для обхода всего рунета за месяц (при условии 100% его использования конечно). и сервер, который сможет из такого потока выделить и запомнить ссылки. Сколько будет стоить такой канал?
По поводу стоимости канала:
Сколько будет стоить канал, способный прокачать скажем 10^5 Гб за месяц (для того, чтобы ссылочная база обновлялась раз в месяц) ? недешево, но, кажется, не настолько дорого, как писалось выше. Хранить все это не потребуется, только ссылки, запросов также будет меньше, чем к Яндексу, оптимизаторов все же не миллионы.
Суммарная стоимость оборудования/канала будет велика, но все же несравнима с полноценным поисковиком.
Проблема в том, что понадобятся алгоритмы борьбы со ссылочным спамом (вернее, неучет спам-ссылок при оценке ценности страницы в плане размещения с неё ссылок), а на это, по моему мнению, направлены основные усилия разработчиков современных ПС (хотя если описанная система будет принадлежать крупнейшей бирже поискового спама, отфильтровать свои ссылки ей будет значительно легче :)
вот как раз при работе с Я.деньгами - не копейки...
спасибо за подсказку, на четвертые сутки индеец зоркий глаз все понял :) да, таких сайтов *сейчас* очень мало, но в будущем их количество может увеличиться.
похоже, скрипт проверяет, где выдача страницы притормаживает - там и "левые" ссылки.
верно, не может, но что если цель Яндекса банальная - сэкономить свои ресурсы (по вашим данным - до 90% экономии может выйти)?
Вы предвидели такой исход, но ваши действия исходили из предположения "да минует меня чаша сия". Как ни крути, ошиблись вы, а с Яндексом вы ведь не подписывали договор о том, что ваш сайт должен быть в выдаче по таким-то запросам. Аналогия с королем неточна, "простые люди" - это пользователи, а не владельцы сайтов.
выходит, фильтр уникального контента работает по принципу "лучше пусть пострадает невиновный, чем виновный не будет наказан".
хотя есть примеры сайтов, содержащих 100% заимствованного контента (как без так и со ссылками на первоисточник), которые полностью в индексе и отлично ищутся/находятся в Я.
ну нас ведь российская аудитория интересует, а она показана тут http://www.liveinternet.ru/stat/ru/searches.html?slice=ru