а ру-хосты если не секрет откуда взяли? особенно интересует где можно полный список добыть?
мне такой тул раз в две недели был интересен - а бесплатных вариантов в сети нету - те что платные довольно урезанные - так что решили сами себе собрать.
надеюсь за недельку не наскучит и вы к нам ещё вернётесь :)
revinternet добавил 17.04.2010 в 08:17
Старые стараемся оставлять если только домен кому то не переходит с другим адсенсом и аналитиксом. Тогда overwrite.
Ну мульён это перебор - стока в день точно не будет - но из всех новых большая часть пустышек которые даже не резолвятся. 90-95% это от всех com/net/org/biz/us/info. Впредь постараемся держать на этом же уровне.
Ну ладно - ру домены сами нароем. Их явно поменьше чем комов будет 😎
Метрика это как я понял аналитика яндекса - интересно - надо будет на неё глянуть на предмет популяризации :).
Спасибо! Рад что понравилось!
А можно примеры в личку чего не находит - постараемся учесть в кроуле (если там не супер секретные домены :)). По идее покрытие com/net/org/biz/us/info должно быть в раойне 95+%. Международные сайты мы ещё слабо покрываем но в ближайшее время с новым апдейтом базы покрытие будет веселее.
Парсили - и собственно продолжаем парсить всё сами. Кстати если есть идеи чего ещё типа adsense id & analytics id можно выкурить оттуда подобным парсом применительно к yandex и т.п. то вполне можем сделать.
Возраст накопленной инфы в базе в пределе полугода. По идее даже если сайт не вылазит в поисковике или на adwords или на него нет ссылок мы его всё равно подхватим. Может поэтому с аналитиком и получился эффект старой базы.