Парсер тайтлов внутряков

12
prlink
На сайте с 05.05.2006
Offline
195
#11
Kost:
Т.е. вы хотели получить список тайтлов, не скачивая страниц сайта? Нормально.

Есть несколько алгоритмов вытаскивания тайтлов. Хотел более оптимизированный. А Вам, я вижу, все равно, что качать...

Алексей Барыкин:
Ну что? Обломался я с десяткой? 🚬

Ты не торопись. Пока я еще не нашел...🚬

0
На сайте с 19.09.2007
Offline
55
#12
Алексей Барыкин:
Может и есть, но скрипт примитивный как Hello World, и вряд ли кто морочился выкладыванием в паблик.

Почти... Если DOM не использовать - могут всплыть некоторые подводные камни...

У меня есть готовый, отточенный тестами, php-скрипт, с заданием глубины парсинга страниц, с переходом по HTTP-редиректам, приведением русских тайтлов к единой кодировке и фильтром пропускаемых URL'ов по вхождению строки (например - расширению).

Могу скинуть линку на тему с отзывом заказчика (писался в качестве тестового задания, но доработки из моих идей) и сделать тестовый парсинг.

За полтиник зелёных отдам. :)

prlink:
Есть несколько алгоритмов вытаскивания тайтлов. Хотел более оптимизированный. А Вам, я вижу, все равно, что качать...

Поскольку php-скрипт будет работать с удалённого сервера - не вижу особого резона в экономии трафика.

Но, если Вам нужно выкачивать гигабайты тайтлов в день :) - могу дописать модуль для обработки страниц в gzip.

prlink
На сайте с 05.05.2006
Offline
195
#13

Нужен парсер, способный выкачивать тайтлы и урлы от 10 000 страниц. 🚬

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий