А не скачать ли нам базу ссылок рунета? :)

euhenio
На сайте с 21.09.2001
Offline
357
13724

Я, в порядке яндекс-гранта, игрался с базой ссылок между хостами яндекса. Чувствую - этого мало... Хочется знать с каких внутренних страниц поставлены ссылки... Можно поточнее приблизить русский PageRank. Кроме того, частенько по сниппетам понятен текст ссылки.

Короче, есть предложение. Скинуться деньгами и скачать по 500 тыс. хостов ссылающиеся на них страницы, и по новым найденным хостам - тоже. Информацию поделить.

На февраль этого года было около 500 тыс. проиндексированных Яндексом хостов. Из них с половины примерно хостов были внешние ссылки на проиндексированные Я. сайты.

Тарифы на яндекс-хмл: http://help.yandex.ru/xml/?id=396583

более 500 тысяч - $2 за тысячу.

По моей оценке, за 7 месяцев число проиндексированных хостов могло подрасти примерно на 200 тыс. максимум. Если исходить из расчета 700 тыс. хостов = 700 тыс. запросов к ссылающимся = $1400 в деньгах.

При этом у 50% хостов ссылающихся не будет, у 90% хостов число ссылающихся в пределах 10. Остальное надо копать вглубь, но в массе это сильно не увеличит число требуемых денег.

Инфу в сыром виде либо обработанном раздать всем участникам гешефта. Если десяток человек наберется - по $140 с каждого получится.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
human
На сайте с 05.02.2004
Offline
78
#1

я в деле, можно включить в список :)

С уважением, Кучеров Дмитрий SEO complex — комплексный подход к продвижению (http://seo-complex.ru/) моб. тел.: +7 (495) 506-80-90
beroot
На сайте с 08.06.2004
Offline
124
#2
Инфу в сыром виде либо обработанном раздать всем участникам гешефта. Если десяток человек наберется - по $140 с каждого получится.

Какая инфа будет в сыром виде?

И кроме денег какое участие еще требуется?

euhenio
На сайте с 21.09.2001
Offline
357
#3

В сыром виде можно сделать результаты в ХМЛ - ответы скрипта по каждому хосту по ссылающимся страницам. Если данных будет слишком много, то можно предварительно обработать их.

Кроме денег... Ну, вроде, не требуется.

Если народ наберется, то заниматься я этим буду через месяц.

wayfarer
На сайте с 28.12.2003
Offline
141
#4

А смысл?

Обсчет всей канетели = n времени

при постоянных изменениях в базе будем иметь только приближенное число.

Возьмем ситуацию когда на сайт А за одно обновление после эксперимента яндекс найдет х жирных ссылок а на сайт В столько же потеряет итого получаем непредсказуемый перекос. Стоит ли обсчитывать "вчерашнюю" инфу?

Предпочитаю наличку
euhenio
На сайте с 21.09.2001
Offline
357
#5

Вопрос в том, что "жирные" сайты просто так не возникают. И если появилось несколько жирных ссылок, можно их включить в расчет по конкретному сайту, предполагая, что "жирность" ссылающихся изменилась с прошлого даунлоада не сильно.

А меняется ссылочная база не настолько активно.

wayfarer
На сайте с 28.12.2003
Offline
141
#6

Тогда предлагаю делать обсчет раз в месяц, итого имеем динамику, но еще пара моментов

1. как быть с отфильтрованными ссылками?

2. как быть со ссылками которые с параметром partner_id?

3. коэффициенты придумывать будем?

4. внутреннее распределение ссылок по сайту?

N
На сайте с 18.05.2003
Offline
100
#7
А не скачать ли нам базу ссылок рунета? :)

А даст ли яндекс?

Т.е. есть сайт, делаем по нему запрос, показать ссылки, получаем:

Результат поиска: страниц — 1 244, сайтов — не менее 357

Тыкаем на ссылку страницы номер 8 внизу вот этой первой страницы, получаем:

Результат поиска: страниц — 1 237, сайтов — не менее 89

При этом фактически то я знаю, что цифра: сайтов — не менее 357 более или менее похожа на правду.

И совсем непонятно, по какому поводу он куда-то хренакнул 3 из 4-х ссылок. Т.е. судя по первой странице, физически он их знает, но судя по следующим, показывать их не хочет.

Насколько я знаю, ХМЛ отдается такой же как на основной выдаче. Так что получить реальную картинку не получится.

Если же ориентироваться, что яндекс показывает только те ссылки, которые он учитывает в настоящий момент, то тут вообще затея становится полностью нецелесообразной, т.к. еще выкачать базу не успеем, а яндекс успеет поменять алгоритм учета ссылок.

Nik33
На сайте с 04.08.2005
Offline
58
#8

euhenio, а можно прикинуть технические моменты:

сколько времени займет скачивание базы, каков будет ее объем в Мb?

Выбор уже сделан! Тебе осталось принять его..
euhenio
На сайте с 21.09.2001
Offline
357
#9
Тогда предлагаю делать обсчет раз в месяц

-по моему, дороговато будет. :)

Предлагаю сначала кворум набрать.

1. как быть с отфильтрованными ссылками?
2. как быть со ссылками которые с параметром partner_id?
3. коэффициенты придумывать будем?
4. внутреннее распределение ссылок по сайту?

1. никак. т.к. неизвестно.

2. они идут как обычные ссылки

3. коэффициенты в формуле? они в широких пределах могут варьироваться - от 0.75 у сайта с 4 хитами на хост до 0.9 у сайта с 10 хитами на хост.

4. распределение страниц по сайту нереально знать - для этого надо прокачать весь рунет. :) придется пользоваться предположениями. Но тут надо думать. Например, из общего числа страниц на сайте и средних данных по числу ссылок с морды внутрь - определять примерно число уровней структуры и предполагать, тчо ссылка идет с одного из этих уровней.

Newm,

А даст ли яндекс?

-дык за бабло - конечно, даст! :)

euhenio
На сайте с 21.09.2001
Offline
357
#10

Nik33,

а можно прикинуть технические моменты:
сколько времени займет скачивание базы, каков будет ее объем в Мb?

-тарифы Я-ХМЛ говорят о том, что скачивание займет не больше месяца, т.к. минимально платится $1000 в мес. :)

Какой объем - пока не знаю, там в хмл-ответе разные лишние данные есть. Но на один-пару DVD должно войти. Если 700 тыс. запросов, да пусть по 10К... 7 Гиг... Если половина из ответов - пустые - меньше, на один диск войдет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий