Мишган

Рейтинг
73
Регистрация
01.12.2005
_dion_:
Поскольку начало положено, то можно для найденных в Яндексе страниц посмотреть сохраненную копию и проверить наличие на ней ссылки на искомый сайт, заодно можно и анкор получить. Это будет хоть что-то.

Вы предлагаете наложить фильтр на неполные данные. В чем смысл то? полноценных ссылок с ключевиком и без названия домена мы так не получим. А каталожные и форумные особой ценности не представляют

Wild.wind:
нет уж тему сворачивать не стоит - выхода не найдено, НАДО ИСКАТЬ.

Ты можешь написать скрипт который:

1.Считает и выдает бэки по YaHoo
2.Минусует из них непроиндексированные яндексом страницы

ведь больше ничего не требуется. напишет уже кто-нибудь этот скрипт или как? помоему ниче сложного нет тут...

Ну так напиши.

Serafim:
Shunya, третий не только в Интернете не жилец, но и в телекоммуникациях. Вероятно, это как-то связано с работой человеческой психики.

МТС Билайн и Мегафон отлично живут вместе

LEOnidUKG:
Мишган Тут суть в том, чтобы отфильтровать эти якобы ссылки.

Так фишка в том что фильтровать нечего. Нет в выдаче яндекса информации об урлах ссылок.

Насколько я понимаю, Яндекс отрубил поиск по анкор листу, оставив только поиск по проиндексированному тексту. Урл ссылки не входит в данный текст, в отличии от текста ссылки. Следовательно при любом запросе в поиске не будет учавствовать урл ссылки, поэтому достать из яндекса нормальные(без урла в тексте) ссылки НЕВОЗМОЖНО.

Alex Klo:
Если компания (Я) действительно ориентирована на своих клиентов (оптимизаторов, простых пользователей), то она перед тем что-бы что-то отобрать у клиентов должна была бы дать им что-то взамен. Взамен ничего не было предложено. Только обещано на неопределенное время ("осенью"... какого года? ).
Из этого можно предположить что компания (Я) не ориентирована на своих грамотных клиентов (оптимизаторов). Так с клиентами не работают. Это допустимо только при форс-мажоре.

Оптимизаторы это не клиенты яндекс.поиска. Так что яндекс может с ними обходиться как хочет

КиллерМЕН:
В полне подойдет iconv если конечно не нужно перекодировать постоянно тонны текста.

А на любом ли хостинге есть?

shikari:
Все это замечательно, представим, что бэки собраны.
Но на главный вопрос - какие из них принимает во внимание Яндекс - ответ-то можно узнать только у Яндекса. Поэтому простого сканирования тут недостаточно.

Ну яндекс ответит на этот вопрос-)

Ceres:
как миниум то что общедоступно было - ссылки по анкору. Но вообще-то имея анкор листы каждый сам волен с ним делать се что захочет ;)

Нужно индексировать порядка 1 миллиарда страниц каждая размером 20-30 килобайт (в среднем). Срок жизни базы максимум месяц. То есть каждый месяц нужно выкачивать 30 терабайт (если судить по вебальте то около 17 терабайт). Можно рассмотреть 2 решения проблемы:

1) Кластер. Ему нужен будет канал не менее (20 000 000 000 000 *8 бит) / (30*24*3600 секунда) = 61 мегабит. Стоимость входящего трафика 20000*3 = 60000 долларов в месяц. Сервер должен уметь парсить не менее 1 000 000 000/(30*24*3600) не менее 400 страниц в секунду. С этой задачей справится пара нормальных серваков на 100мегабитном канале (желательно каждый).

Существенным минусом является цена трафика.

Плюсы что вся информация в одном месте включая собственно проиндексированную страницу

2) Распределенная система. Практически все параметры как у кластера. Для снижения издержек на трафик потребуется распределить нагрузку на 6 000 участников (т.к машины будут включены не все время). Существенным минусом является хранение на серваке только анкор листа без собственно проиндексированной страницы.

В принципе второй вариант реализовать можно, осталось найти 6000 человек, готовых разместить на своей домашней машине программу, имеющих анлим и готовых жертвовать не менее 3-4 гигабайт в месяц на работу системы.

BigBrother:
Ну что вы спорите?

Вам же уже из достоверного источника все сказали:



:)

http://webmaster.yandex.ru/faq.xml?id=508490#wrongname

А как же это? Кстати моя позиция не противоречит позиции melkova

Всего: 874