revinternet

Рейтинг
0
Регистрация
16.04.2010
response:
прикольно. в свое время нечто подобное собрал на два ляма ру-хостов. Любопытства хватает на недельку поиграцца.

а ру-хосты если не секрет откуда взяли? особенно интересует где можно полный список добыть?

мне такой тул раз в две недели был интересен - а бесплатных вариантов в сети нету - те что платные довольно урезанные - так что решили сами себе собрать.

надеюсь за недельку не наскучит и вы к нам ещё вернётесь :)

revinternet добавил 17.04.2010 в 08:17

ZoomY:
Отлично!
Особенно если старые сайты (уже неактуальные) не вылетали из базы (вы же их переиндексируете?), а помечались каким-то образом.

Домены не дам, сикред. 🤪

90-95% это буржуйнет? Или вообще все com/net/org/biz/us/info? Их же каждый день мульён новых появляется...

По поводу Яндекса - Метрику было бы неплохо отпарсить. Её кстати не так много пока. :)

Старые стараемся оставлять если только домен кому то не переходит с другим адсенсом и аналитиксом. Тогда overwrite.

Ну мульён это перебор - стока в день точно не будет - но из всех новых большая часть пустышек которые даже не резолвятся. 90-95% это от всех com/net/org/biz/us/info. Впредь постараемся держать на этом же уровне.

Ну ладно - ру домены сами нароем. Их явно поменьше чем комов будет 😎

Метрика это как я понял аналитика яндекса - интересно - надо будет на неё глянуть на предмет популяризации :).

ZoomY:
Толковая штука!
Только база маловата. Не всё находит.
Сами парсили?

О, и база я смотрю достаточно старая. Это в чём-то плюс - есть данные по сайтам которые уже пару лет не рекламируются в AdWords и также на которых уже не установлен Analytics. Интересно.

Спасибо! Рад что понравилось!

А можно примеры в личку чего не находит - постараемся учесть в кроуле (если там не супер секретные домены :)). По идее покрытие com/net/org/biz/us/info должно быть в раойне 95+%. Международные сайты мы ещё слабо покрываем но в ближайшее время с новым апдейтом базы покрытие будет веселее.

Парсили - и собственно продолжаем парсить всё сами. Кстати если есть идеи чего ещё типа adsense id & analytics id можно выкурить оттуда подобным парсом применительно к yandex и т.п. то вполне можем сделать.

Возраст накопленной инфы в базе в пределе полугода. По идее даже если сайт не вылазит в поисковике или на adwords или на него нет ссылок мы его всё равно подхватим. Может поэтому с аналитиком и получился эффект старой базы.