Как создать такой парсер?

24

Busgame

28 декабря 2012, 16:08

4886

Добрый день. Нужно создать "умный" парсер, который умеет ходить по внутренним ссылкам и собирать нужную информацию, заданную в шаблоне. При этом должно производится сравнение с заданным шаблоном. Вот пример работы такого скрипта:

Веб-сайт -> внутренняя страница (сравнение с шаблоном, если подходит, сведения собираются в бд) -> внутренняя страница (сравнение с шаблоном, если не подходит, переходим дальше) -> и так путешествие по всему сайту.

Прошу дать наводку, на каком языке это лучше всего реализовать и какую библиотеку использовать. Буду рад любой ссылке или мысли, спасибо.

P.S: работаю в php, изучал cURL, но нужного так и не нашел, возможно тыкните пальцем на справку или еще куда.

D

153

Dinozavr

28 декабря 2012, 16:29

#1

а в чём проблема с

Busgame:
работаю в php, изучал cURL

?

2

77

sunca

28 декабря 2012, 16:30

#2

Вам приём определённый нужен или задача под какой-то конкретный сайт?

1

O3

127

oleg3d

28 декабря 2012, 16:41

#3

php+curl+preg_match_all

1

24

Busgame

28 декабря 2012, 17:07

#4

Вам приём определённый нужен или задача под какой-то конкретный сайт?

Нужен скрипт (бот), который в автоматическом режиме будет сканировать страницу, проверять ее на соответствие заданному шаблону, и если такое найдено, заносить сведения об этой странице в базу данных. Если же соответствие не найдено, переход по любой внутренней ссылке на другую страницу и повторение этого алгоритма.

---------- Добавлено 28.12.2012 в 21:19 ----------

Dinozavr:
а в чём проблема с ?

нужного так и не нашел

Может быть выписку из справки (или еще откуда) дадите по моей теме.

Инструмент проверки URL в Google Ads запустил автоматически В Яндекс Директе и

D

153

Dinozavr

28 декабря 2012, 17:21

#5

Busgame, так скажите в чём у вас проблема? там больше curl и regexp ничего не надо

1

M

99

mixar

28 декабря 2012, 17:23

#6

Еще ajax можно добавить, чтоб не нарваться на max execution time.

1

Портал WebDev - все о разработке сайтов (http://www.webdev.ru)

196

Милованов Ю.С

28 декабря 2012, 17:28

#7

mixar:
Еще ajax можно добавить, чтоб не нарваться на max execution time.

Можно подробней? Что, где, зачем, почему, для чего?

ТС`у:

В основе Вашей хотелки лежит рекурсия.

1) получаем курлом главную страницу

2) собираем все ссылки. Тут немного засада, ссылки могут быть как абсолютные, так и относительные, ну и естесно на другие сайты, также линки могут быть не тока в теге <a> но еще и картинками бла-бла-бла... Это Вы все должны прочекать регулярными выражениями.

3) Теперь мы имеем массив ссылок.

4) По этому массиву проходимся, проверяем на соответствием шаблону, и если надо, также как с главной страницы собираем линки.

За Вас тут никто писать не будет - инфа 100%.

Основная сложность в чеке и выборе ссылок из контента.

Удачи:)

1

Подпись))

Продавцы Яндекс Маркета смогут «А почему так дорого?» Абсолютные и относительные URL:

24

Busgame

28 декабря 2012, 17:37

#8

Dinozavr уже не в чем, направление уловил. Буду более глубоко изучать curl и регулярные выражения.

Милованов Ю.С, тут вы немного не поняли. Отправная точка - главная страница, но возвращаться к ней более одного раза (собсно старта) не нужно. То есть написанный скрипт будет бесконечно гулять по внутренним ссылкам, лишь изредка заглядывая на главную страницу. Но опять же, направление понято.

Нужны curl'ы и реги.

За Вас тут никто писать не будет - инфа 100%

Очевидно как бы.

Mail.Ru: новый интерфейс поиска Google: показать важность страниц Как тратить меньше времени

110

izbushka

28 декабря 2012, 17:49

#9

Busgame:
Отправная точка - главная страница, но возвращаться к ней более одного раза (собсно старта) не нужно.

Нужно вести базу ссылок, т.к. на одну страницу могут разные ссылаться. Посещенные ссылки помечать в базе. Таким образом повторов не будет

1

24

Busgame

28 декабря 2012, 17:52

#10

izbushka:
Нужно вести базу ссылок, т.к. на одну страницу могут разные ссылаться. Посещенные ссылки помечать в базе. Таким образом повторов не будет

При помощи чего можно запоминать посещенные ссылки?

Сразу прошу прощения, если задаю вопросы, ответы на которые очевидны.

Что такое Power BI и зачем это нужно бизнесу

Open AI тестирует память для ChatGPT