euhenio

euhenio
Рейтинг
357
Регистрация
21.09.2001
Должность
ИП: продвижение и создание сайтов, увеличение конверсии

Dm,

Можно ли чуть подробнее, как ты представляешь себе скачивание ссылок на 500 тыс. хостов? Какие запросы планируешь задавать и где гарантия, что они будут уникальными?

-задаем 500 тыс. запросов вида #link="www.site.ru*"|#link="site.ru*"

Если в ссылающихся находим новые домены, скачиваем данные и по ним тоже.

тут ты неправ, они (ссылки) ведут на страницы которых не существует 302 и Location

-ты собираешься каждую ссылку проверить, прокачав ее? :) А ссылки отображаются в выдаче.

какие мы брать будем? или будем считать по всему обозначеному пределу?

-вообще-то, я хочу взять данные и поделиться с соседями. Как считать - персональное дело каждого. Можно, как обычно, взять 0.85, что соотвествует 6.66 хитов на хост :)

без этого знания вся затея имхо это гадание на кофейной гуще, отсюда можно будет выловить только распределение мордоссылок, что реальной картины не даст по общей задумке

-ну, в среднем по больнице должно выйти нормально. Надо просто подумать, как выцепить еще и число проиндексированных страниц без доп. запроса в Я-ХМЛ. Ну лил можно физически выкачать морды сайтов и посмотреть, сколько с них реально ссылок внутрь. Но это уже совсем другая история.

Ну и опять-же, считаем кто как хочет. :)

Newm, ну, такие вещи, как отпадение части ссылок из выдачи - сложно перебить чем-то.

Nik33,

а можно прикинуть технические моменты:
сколько времени займет скачивание базы, каков будет ее объем в Мb?

-тарифы Я-ХМЛ говорят о том, что скачивание займет не больше месяца, т.к. минимально платится $1000 в мес. :)

Какой объем - пока не знаю, там в хмл-ответе разные лишние данные есть. Но на один-пару DVD должно войти. Если 700 тыс. запросов, да пусть по 10К... 7 Гиг... Если половина из ответов - пустые - меньше, на один диск войдет.

Тогда предлагаю делать обсчет раз в месяц

-по моему, дороговато будет. :)

Предлагаю сначала кворум набрать.

1. как быть с отфильтрованными ссылками?
2. как быть со ссылками которые с параметром partner_id?
3. коэффициенты придумывать будем?
4. внутреннее распределение ссылок по сайту?

1. никак. т.к. неизвестно.

2. они идут как обычные ссылки

3. коэффициенты в формуле? они в широких пределах могут варьироваться - от 0.75 у сайта с 4 хитами на хост до 0.9 у сайта с 10 хитами на хост.

4. распределение страниц по сайту нереально знать - для этого надо прокачать весь рунет. :) придется пользоваться предположениями. Но тут надо думать. Например, из общего числа страниц на сайте и средних данных по числу ссылок с морды внутрь - определять примерно число уровней структуры и предполагать, тчо ссылка идет с одного из этих уровней.

Newm,

А даст ли яндекс?

-дык за бабло - конечно, даст! :)

Вопрос в том, что "жирные" сайты просто так не возникают. И если появилось несколько жирных ссылок, можно их включить в расчет по конкретному сайту, предполагая, что "жирность" ссылающихся изменилась с прошлого даунлоада не сильно.

А меняется ссылочная база не настолько активно.

В сыром виде можно сделать результаты в ХМЛ - ответы скрипта по каждому хосту по ссылающимся страницам. Если данных будет слишком много, то можно предварительно обработать их.

Кроме денег... Ну, вроде, не требуется.

Если народ наберется, то заниматься я этим буду через месяц.

beroot, ну вроде если вбить прямо в адресную строку http://adstat.rambler.ru/wrds/wrds.pl?date=0509&words=хуй&morph=&page=0 - (без рефа, понятно) - все нормально отдаст.

На русском - надо использовать urlencode, превращающий русские буквы в %NN.

Есит такой модуль и есть кусочек кода, делающий это.

Коля Дубр, а если я в окно выброшусь, вы тоже прыгнете? :)

Имхо, слишком сложно считать кольца. И уверен, что этого сейчас не делается.

Всего: 4720