Как скопировать адреса сайтов из лайвинтернет?

L

205

limyh

20 января 2016, 21:22

1150

Всем добрый вечер.

По ссылке http://www.liveinternet.ru/rating/

представлены 523 тысячи адресов сайтов.

Как можно скопировать АДРЕСА этих сайтов?

Т.е. получить список вида:

вк.ком

ок.ру

Майл.ру

авито.ру

и т.д. все 523 тысячи?

Градация уровней знаний в SEO: Pre-Junior / Junior / Strong Junior / Pre-Middle / Middle / Strong MIddle / Pre-Senior / Senior / Strong Senior. Я где-то между 3-4 м уровнем. К сожалению. Хочу больше. Мог бы больше.

Z0

826

ziliboba0213

20 января 2016, 21:39

#1

У них вроде аяксом сейчас подгружаются сайты по вашей ссылке..

Не уверен что сработает парсинг html по file_get_contents.

Может есть какие другие парсинги аякса :)

58

sanika

20 января 2016, 21:50

#2

Надо хорошенько в яваскриптах порыться. Чтоб вычислить где та страница, которую аякс подгружает

---------- Добавлено 20.01.2016 в 23:50 ----------

ziliboba0213:
Не уверен что сработает парсинг html по file_get_contents

не сработает, даже пробовать нечего

LinkBoss.net - Трастовые ссылки для увеличения трафика в 10 раз! (http://linkboss.net/)

Z0

826

ziliboba0213

20 января 2016, 21:54

#3

sanika:

не сработает, даже пробовать нечего

Я сказал, что не сработает, по моему мнению. Мнения у всех разные :), может тут найдутся специалисты, которые меня опровергнут 🍿 Я готов к новым знаниям 🤪

sanika:
Надо хорошенько в яваскриптах порыться. Чтоб вычислить где та страница

А чего копаться, вроде тут: http://www.liveinternet.ru/js/rating-1.js 🍿

1

58

sanika

20 января 2016, 21:58

#4

Вам надо смотреть в сторону ... урл выше :), а точнее вот этот участок из файла тянет данные


request.open("GET", '/rating/' + current.geo + '/' + current.group + '/' + current.period + '.tsv?' +
        (current.page > 1 ? 'page=' + current.page : '') +
        (current.search ? ';search=' + encodeURIComponent(current.search) : ''),
        true);

Без хорошего спеца по JS тут не разобраться :) скрипт тоже не дураки ведь делали

---------- Добавлено 20.01.2016 в 23:59 ----------

ziliboba0213, пока рассматривал код вы уже все написали

1

Просел доход на адсенс вредоносный код Ищу скрипт погоды. Парсер.

L

205

limyh

21 января 2016, 06:39

#5

А сервисов никаких нет?

58

sanika

21 января 2016, 07:54

#6

limyh, не думаю что где-то палится посещения всех лирушных сайтов :) Много кто хотел бы видеть статистику своих конкурентов. Но если зная домен можно получить статистику, то получить все вместе с доменами - увы нет

---------- Добавлено 21.01.2016 в 10:00 ----------

Можно обойти парсером. Страницы

http://www.liveinternet.ru/rating/today.tsv?page=$i

$i от 1 до числа страниц на момент парсинга. Эта переменная каждый час меняется.

Данные отделяются друг от друга знаком табуляции, а сайт от сайта знаком переноса строки.В принципе не особо сложно, но надо иметь час-другой для работы

В Я.Директе появились новые Автоматизация сбора данных для Workspace представила сервис по

C

54

colorito

21 января 2016, 08:23

#7

Зачем вам куча топиков?

searchengines.guru/showthread.php?p=14261371

Услуги по парсингу данных (/ru/forum/939826), единоразовый и регулярный сбор данных. Любые объемы. Скрипты на PHP, создание и доработка, решение проблем с сайтами Пишите в личные сообщения или скайп

D

18

donkmybet

21 января 2016, 08:24

#8

Пробуйте софт datacol

L

205

limyh

21 января 2016, 08:25

#9

sanika:
limyh, не думаю что где-то палится посещения всех лирушных сайтов :) Много кто хотел бы видеть статистику своих конкурентов.

Да мне не посещалка и еще что-то нужно. Мне просто адреса сайтов всех нужно)

---------- Добавлено 21.01.2016 в 14:10 ----------

donkmybet:
Пробуйте софт datacol

Не получается. Может нельзя?

58

sanika

21 января 2016, 13:27

#10

limyh, вы с каким-то языком программирования знакомы, или ищете чтоб вам дали готовый код? Алгоритм вам уже объяснили - цикле обойти все страницы и с помощью регулярки вырезать все урлы на странице, занести их в массив и потом лишь прочитать его. Там делов на час с перекуром.

Facebook будет использовать собственный Ранжирование в Яндексе: как Языки программирования, на которых

Что делать, если ваша email-рассылка попала в спам

Курс биткоина превысил $50 тысяч