Введите параметр maxTimeNotCheck, чтобы разгрузить ресурсы - Веб-строительство

Как создать такой парсер?

Busgame · 2012-12-28T16:08:46.0000000Z

Добрый день. Нужно создать "умный" парсер, который умеет ходить по внутренним ссылкам и собирать нужную информацию, заданную в шаблоне. При этом должно производится сравнение с заданным шаблоном. Вот пример работы такого скрипта: Веб-сайт -> внутренняя страница (сравнение с шаблоном, если подходит, сведения собираются в бд) -> внутренняя страница (сравнение с шаблоном, если не подходит, переходим дальше) -> и так путешествие по всему сайту. Прошу дать наводку, на каком языке это лучше всего реализовать и какую библиотеку использовать. Буду рад любой ссылке или мысли , спасибо. P.S: работаю в php, изучал cURL, но нужного так и не нашел, возможно тыкните пальцем на справку или еще куда.

D

153

Dinozavr

30 декабря 2012, 11:22

#31

Busgame, ладно, будем по буквам.

только обещайте отвечать на мои вопросы!

вы знаете, что такое регулярное выражение?

1

DV

644

DenisVS

30 декабря 2012, 11:22

#32

Лучше на Пайтоне, но я бы на PHP сделал. По опыту написания парсеров, современная машинка напрягаться не должна на таком количестве.

Значит, нужно использовать базу. Проходить по всем имеющимся URL, дёргать страницы и то, что совпало с паттерном, заносить в соответствующее поле. Дальше, создаём поле вроде last_checked, куда заносим дату последней проверки, в unixtimestamp.

Перед очередным парсингом делаем выборку, дёргаем самую старую страницу. Если есть ненапарсенное, его выбираем приоритетно.

Можно пойти дальше и наделить систему интеллектом, чтобы разгрузить ресурсы. Ввести поле last_changed, куда заносить дату последнего изменения. Т.е. дёрнули из базы, сравнили с тем, что выплюнул парсер. Есть разница — апдейтим, нет разницы, апдейтим только last_checked.

Далее, выбирать те URL, разница между проверкой и последним изменением которых больше, чем разница между проверкой и текущим временем.

Этим добиваемся того, что чаще обновляемые страницы прсятся чаще, чем покрытые мхом. Само собой, Коэффициенты ввести, чтобы гибко настраивалось. Кроме этого, нужно ввести параметр $maxTimeNotCheck, чтобы не оказалось, что следующий парсинг будет через пол года.

И лучше запускать в cli, тогда нагрузка будет совсем небольшая.

1

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )

13 лучших практик по Как и зачем автоматизировать Проверяем позиции в Google

C

291

Chukcha

30 декабря 2012, 11:23

#33

Правда ума не приложу как эти курлы заставить по ссылкам переходить.

А как вы эту курлу заставляете посетить первую страницу?

1

24

Busgame

30 декабря 2012, 11:30

#34

Dinozavr, знаю. Но работа с ними порой затруднительна. Сейчас читаю книгу Джеффри Фридла по ним.

---------- Добавлено 30.12.2012 в 15:32 ----------

А как вы эту курлу заставляете посетить первую страницу?

curl_setopt($ch, CURLOPT_URL, $url);

Но тут то мы задаем этот урл, а нужно что бы он брался автоматически из тех, что находядтся на главной странице.

---------- Добавлено 30.12.2012 в 15:35 ----------

Dinozavr, могу отлучиться минут на 5 - 10, но плотно слежу за темой.

Аудитория Яндекса в ноябре Тренды американского рынка интернет-маркетинга, Google не планирует отключать

D

153

Dinozavr

30 декабря 2012, 11:39

#35

Busgame, вы можете вытащить со страницы ссылки?

L9

53

levka9

30 декабря 2012, 11:41

#36

парсите ссылки так:

$code = file_get_contents($url);

$doc = new DOMDocument();

$doc->loadHTML($code);

$links = array();

foreach ($doc->getElementsByTagName('a') as $element) {

if ($element->hasAttribute('href')) {

$links[] = $elements->getAttribute('href');

}

вот библиотека для DOM элементов :

http://il1.php.net/book.dom

Сам писал такой парсер для биржи ссылок но на C#.

Тут желательно Multi Threading использовать для много страничных сайтов.

1

Программирую на ASP.NET, MVC, C#, ANGULAR JS

Диагностика и решение проблем Google: кнопки это не 10 советов по использованию

24

Busgame

30 декабря 2012, 11:45

#37

Dinozavr:
Busgame, вы можете вытащить со страницы ссылки?

Да, но делаю это в основном phpQuery. Могу и на регулярных, но с библиотеками удобней.

D

153

Dinozavr

30 декабря 2012, 11:48

#38

Busgame, без разницы.

вы знаете, что такое цикл?

1

24

Busgame

30 декабря 2012, 12:02

#39

Dinozavr:
Busgame, без разницы.
вы знаете, что такое цикл?

Конечно знаю

---------- Добавлено 30.12.2012 в 16:02 ----------

Вы задавайте сразу несколько вопросов, а то серч ругается на короткие ответы.

D

153

Dinozavr

30 декабря 2012, 12:15

#40

Busgame, вы понимаете, что весь ваш парсер - это бесконечный цикл, который состоит из:

1. взять ссылку из списка неотпарсенных

2. скормить ссылку curl

3а. проверить содержимое на соответствие вашему шаблону

3б. собрать ссылки и добавить их в список неотпарсенного

4. goto 1

?

1

Google добавил в блоки Serpstat: Самые большие базы Автоматизация сбора данных для

Курс биткоина превысил $50 тысяч

Все что нужно знать о DDоS-атаках грамотному менеджеру

Как создать такой парсер?