Dm,
-задаем 500 тыс. запросов вида #link="www.site.ru*"|#link="site.ru*"
Если в ссылающихся находим новые домены, скачиваем данные и по ним тоже.
-ты собираешься каждую ссылку проверить, прокачав ее? :) А ссылки отображаются в выдаче.
-вообще-то, я хочу взять данные и поделиться с соседями. Как считать - персональное дело каждого. Можно, как обычно, взять 0.85, что соотвествует 6.66 хитов на хост :)
-ну, в среднем по больнице должно выйти нормально. Надо просто подумать, как выцепить еще и число проиндексированных страниц без доп. запроса в Я-ХМЛ. Ну лил можно физически выкачать морды сайтов и посмотреть, сколько с них реально ссылок внутрь. Но это уже совсем другая история.
Ну и опять-же, считаем кто как хочет. :)
Newm, ну, такие вещи, как отпадение части ссылок из выдачи - сложно перебить чем-то.
Nik33,
-тарифы Я-ХМЛ говорят о том, что скачивание займет не больше месяца, т.к. минимально платится $1000 в мес. :)
Какой объем - пока не знаю, там в хмл-ответе разные лишние данные есть. Но на один-пару DVD должно войти. Если 700 тыс. запросов, да пусть по 10К... 7 Гиг... Если половина из ответов - пустые - меньше, на один диск войдет.
-по моему, дороговато будет. :)
Предлагаю сначала кворум набрать.
1. никак. т.к. неизвестно.
2. они идут как обычные ссылки
3. коэффициенты в формуле? они в широких пределах могут варьироваться - от 0.75 у сайта с 4 хитами на хост до 0.9 у сайта с 10 хитами на хост.
4. распределение страниц по сайту нереально знать - для этого надо прокачать весь рунет. :) придется пользоваться предположениями. Но тут надо думать. Например, из общего числа страниц на сайте и средних данных по числу ссылок с морды внутрь - определять примерно число уровней структуры и предполагать, тчо ссылка идет с одного из этих уровней.
Newm,
-дык за бабло - конечно, даст! :)
Вопрос в том, что "жирные" сайты просто так не возникают. И если появилось несколько жирных ссылок, можно их включить в расчет по конкретному сайту, предполагая, что "жирность" ссылающихся изменилась с прошлого даунлоада не сильно.
А меняется ссылочная база не настолько активно.
В сыром виде можно сделать результаты в ХМЛ - ответы скрипта по каждому хосту по ссылающимся страницам. Если данных будет слишком много, то можно предварительно обработать их.
Кроме денег... Ну, вроде, не требуется.
Если народ наберется, то заниматься я этим буду через месяц.
beroot, ну вроде если вбить прямо в адресную строку http://adstat.rambler.ru/wrds/wrds.pl?date=0509&words=хуй&morph=&page=0 - (без рефа, понятно) - все нормально отдаст.
На русском - надо использовать urlencode, превращающий русские буквы в %NN.
Есит такой модуль и есть кусочек кода, делающий это.
Коля Дубр, а если я в окно выброшусь, вы тоже прыгнете? :)
Имхо, слишком сложно считать кольца. И уверен, что этого сейчас не делается.