Вы предлагаете наложить фильтр на неполные данные. В чем смысл то? полноценных ссылок с ключевиком и без названия домена мы так не получим. А каталожные и форумные особой ценности не представляют
Ну так напиши.
МТС Билайн и Мегафон отлично живут вместе
Так фишка в том что фильтровать нечего. Нет в выдаче яндекса информации об урлах ссылок.
Насколько я понимаю, Яндекс отрубил поиск по анкор листу, оставив только поиск по проиндексированному тексту. Урл ссылки не входит в данный текст, в отличии от текста ссылки. Следовательно при любом запросе в поиске не будет учавствовать урл ссылки, поэтому достать из яндекса нормальные(без урла в тексте) ссылки НЕВОЗМОЖНО.
Оптимизаторы это не клиенты яндекс.поиска. Так что яндекс может с ними обходиться как хочет
А на любом ли хостинге есть?
Ну яндекс ответит на этот вопрос-)
Нужно индексировать порядка 1 миллиарда страниц каждая размером 20-30 килобайт (в среднем). Срок жизни базы максимум месяц. То есть каждый месяц нужно выкачивать 30 терабайт (если судить по вебальте то около 17 терабайт). Можно рассмотреть 2 решения проблемы:
1) Кластер. Ему нужен будет канал не менее (20 000 000 000 000 *8 бит) / (30*24*3600 секунда) = 61 мегабит. Стоимость входящего трафика 20000*3 = 60000 долларов в месяц. Сервер должен уметь парсить не менее 1 000 000 000/(30*24*3600) не менее 400 страниц в секунду. С этой задачей справится пара нормальных серваков на 100мегабитном канале (желательно каждый).
Существенным минусом является цена трафика.
Плюсы что вся информация в одном месте включая собственно проиндексированную страницу
2) Распределенная система. Практически все параметры как у кластера. Для снижения издержек на трафик потребуется распределить нагрузку на 6 000 участников (т.к машины будут включены не все время). Существенным минусом является хранение на серваке только анкор листа без собственно проиндексированной страницы.
В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.
http://webmaster.yandex.ru/faq.xml?id=508490#wrongname
А как же это? Кстати моя позиция не противоречит позиции melkova