programer3000

Рейтинг
1
Регистрация
02.03.2016
TOBBOT:
https://partner.r01.ru/zones/ru_domains.gz (все RU домены, база обновляется ежедневно)
https://partner.r01.ru/zones/su_domains.gz (все SU домены, база обновляется ежедневно)
https://partner.r01.ru/zones/rf_domains.gz (все РФ домены, база обновляется ежедневно)

http://s3.amazonaws.com/alexa-static/top-1m.csv.zip (1m самых посещаемых сайтов по данным Alexa.com)
http://www.quantcast.com/quantcast-top-million.zip (1m самых посещаемых сайтов по данным Quantcast.com)

а ну тогда круто, если ежедневное обновление

Удивительно:
Он из гугла. Беглое гугление по правильным запросам выдает десяток мест, откуда можно бесплатно скачать подобные списки.

с форумов что ли? ну это не то, неизвестно насколько они актуальны и т.д.. я имею ввиду актуальные списки откуда-нибудь можно собрать?

Удивительно:
Вы файлик-то откройте, ссылку на который я скинул. Там боооольшой список из всех доменов РУ-зоны. Вообще всех. Такие же списки есть и для других доменных зон. И всё бесплатно, хочу заметить.

Да, открыл, норм, все есть. А откуда он? И где брать актуальный список всех доменов, только у регистраторов заказывать?

TF-Studio:
регистраторы бесплатно предоставляют всем желающим данные доменам, они в открытом доступе
есть куча сервисов
источников инфы навалом

честно говоря не увидел, чтобы бесплатно, вроде как доп услуга. и где, например, эта куча сервисов?

Удивительно:
Еще раз внимательно перечитайте мой ответ. Вдумайтесь в него. В нём есть всё, он самодостаточен ;)

Файл RU_Domains_ru-tld.ru.gz почему-то не открывается. А откуда берется список? База доменов же по-любому постоянно обновляется. Ок, тогда следует логичный вопрос, где взять актуальный список доменов?

---------- Добавлено 09.03.2016 в 13:44 ----------

А все, вопрос снят. У регистраторов есть такая официальная услуга.

Удивительно:
Если бы я был сервисом обратных ссылок - я бы брал информацию о других сайтах из самих ссылок.
Вот есть, например, site1.ru - с него идут ссылки на site2.ru и site3.ru. Просканировав site2.ru получаем ссылки на site4.ru и site5.ru - и так до бесконечности.
Исходные домены можно найти, например, в списках доменов.

В том-то и прикол. А где взять эти site1.ru и siteN.ru ? Просканировав один, не получите ссылки на все остальные, потому что они редко будут пересекаться. Надо просканировать все, чтобы увидеть ссылки. А чтобы просканировать все, нужно знать все сайты, которые существуют в интернете.

TOBBOT:
у браузеров? насмешили )

по сути вопроса: сервисы обратных ссылок также являются поисковыми системами.

еще скажите, что не так. думаете браузеры не собирают статистику и не сливают ее потом поисковым системам? откуда, например, они узнают тогда о новых сайтах?

Не совсем ясно как собирать семантическое ядро. Например запрос "туфли мужские". Если на мой взгляд найдено порядка 30 схожих запросов для одной страницы. Что мне все 30 запросов писать на одной странице, разве не сочтет это поисковик за переспам?