Парсинг ссылок с сайта

M
На сайте с 22.08.2016
Offline
39
422

Приветствую.

Есть очень много страниц (около 500+)

site.com/page/500+

site.com/page/4

site.com/page/3

site.com/page/2

site.com/page/1

На каждой странице есть еще около 10-20 ссылок..

Мне нужно из этих 500+ страниц извлечь все ссылки.. Перерыл весь интернет, ничего не нашел. Помогите пожалуйста!

_
На сайте с 24.03.2008
Offline
381
#1

Ищете нотепадом по регэкспам, в чём проблема-то ?.

M
На сайте с 22.08.2016
Offline
39
#2
_SP_:
Ищете нотепадом по регэкспам, в чём проблема-то ?.

А как прогрузить исходный код всех 500+ страниц (с интернет сайта) в нотепад, чтобы потом вытащить все ссылки?

По одной это очень долго

Vladimir SEO
На сайте с 19.10.2011
Offline
1705
#3

а ХЕну или нетспик сайдер не подходит ?

Эксперт по продуктам Google https://support.google.com/profile/58734375 ᐈ Продвижение коммерческих сайтов https://kulinenko.com/
Gerga
На сайте с 02.08.2015
Offline
94
#4

mekling, самая простая реализация на php:


$lib = [];

for ($i = 1; $i <= 500; $i++) {
$pattern = "'<a[^>]*?href=\"(.*?)\"'su";
$string = file_get_contents('http://site.com/page/' . $i);

preg_match_all($pattern, $string, $result);

if (isset($result[1]) && $result[1]) {
$lib = array_merge($lib, $result[1]);
}
}

file_put_contents('links.txt', implode(PHP_EOL, $lib));
M
На сайте с 22.08.2016
Offline
39
#5
Gerga:
mekling, самая простая реализация на php

Залил это все дело на сайт, перехожу по parser.php - но не работает, просто отображается код как в блокноте.

Gerga
На сайте с 02.08.2015
Offline
94
#6

mekling, все правильно. Теперь открой файл links.txt. Если site.com нормально обработал столько запросов, в links.txt будет профит.

M
На сайте с 22.08.2016
Offline
39
#7

Все работает, разобрался. Ребят, спасибо за помощь, сэкономили кучу времени. Успехов)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий