Mage1

Mage1
Рейтинг
83
Регистрация
05.07.2007

Если кому интересно, сайт, о котором шла речь, вернулся в выдачу в сегодняшний апдейт в полном объеме (морда вернулась пару апдейтов назад).

Стало быть, есть такая санкция - оставить 10 страниц в индексе и все. Думаю, стоит назвать это баном (для сайтов, у которых больше 10 страниц всего :)

JonK:
это не так трудно и дорого как вы думаете:
просто арендуется сервак с толстым каналом инета, пишется хороший, грамотный робот который будет просматривать весь кэш Яндекса и сохранять только необходимую информацию (т.е. какие ссылки на какие сайты ведут - и все, эта информация не так много места будет на серваке занимать). робот конечно не за один день обойдет весь кэш яндекса но за месяц-то уж точно, и будет это делать регулярно. Интернет не такой уж и большой как думают некоторые. Кто работал с подобными роботами тот знает. Пишите, :) если надо напишим отличного робота для этого. Вопрос только в финансах и времени.

По моим подсчетам - 400 Мбит/с (10^5 Гбайт/мес.) канал потребуется для обхода всего рунета за месяц (при условии 100% его использования конечно). и сервер, который сможет из такого потока выделить и запомнить ссылки. Сколько будет стоить такой канал?

По поводу стоимости канала:

В поиске Яндекса сегодня ... объем проиндексированной информации: 77 694 ГБ.

Сколько будет стоить канал, способный прокачать скажем 10^5 Гб за месяц (для того, чтобы ссылочная база обновлялась раз в месяц) ? недешево, но, кажется, не настолько дорого, как писалось выше. Хранить все это не потребуется, только ссылки, запросов также будет меньше, чем к Яндексу, оптимизаторов все же не миллионы.

Суммарная стоимость оборудования/канала будет велика, но все же несравнима с полноценным поисковиком.

Проблема в том, что понадобятся алгоритмы борьбы со ссылочным спамом (вернее, неучет спам-ссылок при оценке ценности страницы в плане размещения с неё ссылок), а на это, по моему мнению, направлены основные усилия разработчиков современных ПС (хотя если описанная система будет принадлежать крупнейшей бирже поискового спама, отфильтровать свои ссылки ей будет значительно легче :)

Ukrainer:
берут они копейки комиссии

вот как раз при работе с Я.деньгами - не копейки...

malls:
Могу сходу сказать как минимум три:
1. Как я уже говорил: Options -FollowSymlinks. К вопросу о том что это дает - это запрещает Апачу упрощать сложные линки. Т.е. "додумывать" пользователя что он имел в виду. Иными словами - заведомо некорректные урлы работать не будут!
2. Т.к. первый способ не приемлим для пользующих mod_rewrite (а таковые используют серверные скрипты), можно определять по какому адрусу заходят на сайт и жестко редиректить на правильный... В случае PHP надо будет просто проверить _SERVER["REQUEST_URI"] и в случае безобразия просто через $right_uri = preg_replace("'[/]*'","/",$_SERVER["REQUEST_URI"]) конвертнуть запрашиваемый урл, и изящно перекинуть юзера на новый урл, ну например через header("Location: "); - ВСЕ!!!

спасибо за подсказку, на четвертые сутки индеец зоркий глаз все понял :) да, таких сайтов *сейчас* очень мало, но в будущем их количество может увеличиться.

похоже, скрипт проверяет, где выдача страницы притормаживает - там и "левые" ссылки.

Сергей Остроухов:
уникальный контент в интернете сократился по разным источникам до 10%. Яндекс не может корректно определить первоисточник

верно, не может, но что если цель Яндекса банальная - сэкономить свои ресурсы (по вашим данным - до 90% экономии может выйти)?

Evgeny P:
И вот когда прибыль уже давно перевалила за 5000 у.е. в месяц, когда прибыль с этого сайта стала моей основной прибылью, я начал подумывать о том, что хожу по слишком тонкому льду. Ведь по большому счету теперь все в моей жизни (своевременность погашения кредитов, финансовое благосостояние и, наконец, личная жизнь) зависело от выдачи поисковой системы «Я». Я стал делать то что должен был делать, еще тщательней и внимательней работать над своим сайтом, стараясь не допустить ни одной ошибки, ведь на кону было слишком много. Однако тот момент, которого я так опасался, все-таки настал и «Я» преподнес мне неприятный сюрприз.

Вы предвидели такой исход, но ваши действия исходили из предположения "да минует меня чаша сия". Как ни крути, ошиблись вы, а с Яндексом вы ведь не подписывали договор о том, что ваш сайт должен быть в выдаче по таким-то запросам. Аналогия с королем неточна, "простые люди" - это пользователи, а не владельцы сайтов.

выходит, фильтр уникального контента работает по принципу "лучше пусть пострадает невиновный, чем виновный не будет наказан".

хотя есть примеры сайтов, содержащих 100% заимствованного контента (как без так и со ссылками на первоисточник), которые полностью в индексе и отлично ищутся/находятся в Я.

Caleb:
Гы-гы ! Не там смотрите !
http://www.liveinternet.ru/stat/ru/searches.html
Яндекс 46.6%
Google 25.0%
Rambler 14.7%
Search.Mail.ru 6.8%

ну нас ведь российская аудитория интересует, а она показана тут http://www.liveinternet.ru/stat/ru/searches.html?slice=ru

Всего: 369