Как создать такой парсер?

DV
На сайте с 01.05.2010
Offline
644
#11

Странный ТС и его топик 😎

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
O3
На сайте с 17.11.2008
Offline
127
#12

не нужно запоминать, гуглите "рекурсия, обход шахматного поля конем"

сначала думаю Вам нужно обойти конем шахматное поле.

стартовать с регулярок не айс

Busgame
На сайте с 10.07.2011
Offline
24
#13
Странный ТС и его топик

Помогли, спасибо. Больше ваша помощь не требуется.

D
На сайте с 14.01.2007
Offline
153
#14
Busgame:
При помощи чего можно запоминать посещенные ссылки?

вариантов мульон:

1. array

2. file

3. DB

4. Memcache

...

VHS-1980
На сайте с 21.05.2010
Offline
91
#15
Busgame:
При помощи чего можно запоминать посещенные ссылки?

Сразу прошу прощения, если задаю вопросы, ответы на которые очевидны.

При помощи записи в базу данных, записи в файл, наконец накопления в памяти (вариант для мазахистов, но все же). Все обработанные ссылки пишем куда надо, потом при проверке необходимости получения страницы сверяем ее url с записями в базе(файле, памяти) и если такой записи нет - заходим на страницу.

При этом не забудьте учитывать возможное добавление идентификатора сессий, иначе бродить придется до бесконечности.

O3
На сайте с 17.11.2008
Offline
127
#16
oleg3d:
не нужно запоминать, гуглите "рекурсия, обход шахматного поля конем"

сначала думаю Вам нужно обойти конем шахматное поле.
стартовать с регулярок не айс

Был не прав, забыл про дубли.

Но конь(рекурсия) - нужен.

Busgame
На сайте с 10.07.2011
Offline
24
#17

Большое всем спасибо, все кто отписался в теме, очень помогли.

rammlied
На сайте с 13.04.2011
Offline
56
#18

посмотрите как карты сайта делаются, так вы получите список страниц. а там уже работайте с содежимым

делаю СДЛы, получаются ГСы )
Busgame
На сайте с 10.07.2011
Offline
24
#19

Список ссылок составить - не самое сложное. Как заставить скрипт переходить на внутренние страницы с этих ссылок - основной вопрос. Уже гуглил, cURL позволяют лишь по четко заданной ссылке переходить. Но мне нужно, чтобы ссылку для перехода он брал с той страницы, на которой находится сейчас сам (например, главной). Главная страница, естественно задается, но гулять по внутренним он должен самостоятельно.

rammlied
На сайте с 13.04.2011
Offline
56
#20

что-то непонятное у вас творится...зачем заставлять скрипт куда то переходить, сделайте сначала карту сайта ( просто список всех страниц) а потом заходите на каждую и берите содержимое

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий