Парсинг ссылок с сайта

M

39

mekling

7 декабря 2018, 09:54

422

Приветствую.

Есть очень много страниц (около 500+)

site.com/page/500+

site.com/page/4

site.com/page/3

site.com/page/2

site.com/page/1

На каждой странице есть еще около 10-20 ссылок..

Мне нужно из этих 500+ страниц извлечь все ссылки.. Перерыл весь интернет, ничего не нашел. Помогите пожалуйста!

_

381

_SP_

7 декабря 2018, 10:11

#1

Ищете нотепадом по регэкспам, в чём проблема-то ?.

M

39

mekling

7 декабря 2018, 10:28

#2

_SP_:
Ищете нотепадом по регэкспам, в чём проблема-то ?.

А как прогрузить исходный код всех 500+ страниц (с интернет сайта) в нотепад, чтобы потом вытащить все ссылки?

По одной это очень долго

1705

Vladimir SEO

7 декабря 2018, 10:30

#3

а ХЕну или нетспик сайдер не подходит ?

Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/

94

Gerga

7 декабря 2018, 10:44

#4

mekling, самая простая реализация на php:


$lib = [];

for ($i = 1; $i <= 500; $i++) {
    $pattern = "'<a[^>]*?href=\"(.*?)\"'su";
    $string = file_get_contents('http://site.com/page/' . $i);
        
    preg_match_all($pattern, $string, $result);    
    
    if (isset($result[1]) && $result[1]) {
        $lib = array_merge($lib, $result[1]);    
    }    
}

file_put_contents('links.txt', implode(PHP_EOL, $lib));

M

39

mekling

7 декабря 2018, 10:58

#5

Gerga:
mekling, самая простая реализация на php

Залил это все дело на сайт, перехожу по parser.php - но не работает, просто отображается код как в блокноте.

94

Gerga

7 декабря 2018, 11:01

#6

mekling, все правильно. Теперь открой файл links.txt. Если site.com нормально обработал столько запросов, в links.txt будет профит.

M

39

mekling

7 декабря 2018, 11:08

#7

Все работает, разобрался. Ребят, спасибо за помощь, сэкономили кучу времени. Успехов)

Google: E-E-A-T не является фактором ранжирования

Зачем быть уникальным в мире, где все можно скопировать