Как скопировать адреса сайтов из лайвинтернет?

L
На сайте с 01.11.2012
Offline
205
1150

Всем добрый вечер.

По ссылке http://www.liveinternet.ru/rating/

представлены 523 тысячи адресов сайтов.

Как можно скопировать АДРЕСА этих сайтов?

Т.е. получить список вида:

вк.ком

ок.ру

Майл.ру

авито.ру

и т.д. все 523 тысячи?

Градация уровней знаний в SEO: Pre-Junior / Junior / Strong Junior / Pre-Middle / Middle / Strong MIddle / Pre-Senior / Senior / Strong Senior. Я где-то между 3-4 м уровнем. К сожалению. Хочу больше. Мог бы больше.
Z0
На сайте с 03.09.2009
Offline
826
#1

У них вроде аяксом сейчас подгружаются сайты по вашей ссылке..

Не уверен что сработает парсинг html по file_get_contents.

Может есть какие другие парсинги аякса :)

sanika
На сайте с 08.12.2015
Offline
58
#2

Надо хорошенько в яваскриптах порыться. Чтоб вычислить где та страница, которую аякс подгружает

---------- Добавлено 20.01.2016 в 23:50 ----------

ziliboba0213:
Не уверен что сработает парсинг html по file_get_contents

не сработает, даже пробовать нечего

LinkBoss.net - Трастовые ссылки для увеличения трафика в 10 раз! (http://linkboss.net/)
Z0
На сайте с 03.09.2009
Offline
826
#3
sanika:

не сработает, даже пробовать нечего

Я сказал, что не сработает, по моему мнению. Мнения у всех разные :), может тут найдутся специалисты, которые меня опровергнут 🍿 Я готов к новым знаниям 🤪

sanika:
Надо хорошенько в яваскриптах порыться. Чтоб вычислить где та страница

А чего копаться, вроде тут: http://www.liveinternet.ru/js/rating-1.js 🍿

sanika
На сайте с 08.12.2015
Offline
58
#4

Вам надо смотреть в сторону ... урл выше :), а точнее вот этот участок из файла тянет данные


request.open("GET", '/rating/' + current.geo + '/' + current.group + '/' + current.period + '.tsv?' +
(current.page > 1 ? 'page=' + current.page : '') +
(current.search ? ';search=' + encodeURIComponent(current.search) : ''),
true);

Без хорошего спеца по JS тут не разобраться :) скрипт тоже не дураки ведь делали

---------- Добавлено 20.01.2016 в 23:59 ----------

ziliboba0213, пока рассматривал код вы уже все написали

L
На сайте с 01.11.2012
Offline
205
#5

А сервисов никаких нет?

sanika
На сайте с 08.12.2015
Offline
58
#6

limyh, не думаю что где-то палится посещения всех лирушных сайтов :) Много кто хотел бы видеть статистику своих конкурентов. Но если зная домен можно получить статистику, то получить все вместе с доменами - увы нет

---------- Добавлено 21.01.2016 в 10:00 ----------

Можно обойти парсером. Страницы

http://www.liveinternet.ru/rating/today.tsv?page=$i

$i от 1 до числа страниц на момент парсинга. Эта переменная каждый час меняется.

Данные отделяются друг от друга знаком табуляции, а сайт от сайта знаком переноса строки.В принципе не особо сложно, но надо иметь час-другой для работы

C
На сайте с 26.10.2013
Offline
54
#7

Зачем вам куча топиков?

searchengines.guru/showthread.php?p=14261371

Услуги по парсингу данных (/ru/forum/939826), единоразовый и регулярный сбор данных. Любые объемы. Скрипты на PHP, создание и доработка, решение проблем с сайтами Пишите в личные сообщения или скайп
D
На сайте с 16.02.2015
Offline
18
#8

Пробуйте софт datacol

L
На сайте с 01.11.2012
Offline
205
#9
sanika:
limyh, не думаю что где-то палится посещения всех лирушных сайтов :) Много кто хотел бы видеть статистику своих конкурентов.

Да мне не посещалка и еще что-то нужно. Мне просто адреса сайтов всех нужно)

---------- Добавлено 21.01.2016 в 14:10 ----------

donkmybet:
Пробуйте софт datacol

Не получается. Может нельзя?

sanika
На сайте с 08.12.2015
Offline
58
#10

limyh, вы с каким-то языком программирования знакомы, или ищете чтоб вам дали готовый код? Алгоритм вам уже объяснили - цикле обойти все страницы и с помощью регулярки вырезать все урлы на странице, занести их в массив и потом лишь прочитать его. Там делов на час с перекуром.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий