Парсилка контента

12 3
[Удален]
1684

Есть потребность взять контент с одного сайта (15 000 страниц) и перенести на другой сайт все это дело, что для этого потребуется, скрипты, самописные программы, руки? P.s. Контент текстовой.

N
На сайте с 15.08.2007
Offline
5
#1

Проще всего через wget в режиме зеркалирования :)

А потом уже локальную копию и парсить можно. По желанию.

D
На сайте с 21.06.2006
Offline
168
#2

wget, teleport

Appstorespy - платформа анализа мобильных сторов | Publa.io - готовая инфраструктура для приема платежей и оплаты рекламных кабинетов в бурже
[Удален]
#3

Отлично, спасибо парни, без вас и форума нет! :)

freezzeerf
На сайте с 15.08.2007
Offline
59
#4

Юзаю Teleport - отличная прога!

→ Разрабатываю дизайн сайтов. → Менеджерам отдаю от 30% до 50% в зависимости от объема проекта → Портфолио (http://www.free-lance.ru/users/freezzeerf) ICQ: 385553008
[Удален]
#5
freezzeerf:
Юзаю Teleport - отличная прога!

wget -> php + регекспы ;)

N
На сайте с 15.08.2007
Offline
5
#6

Использовать php для парсинга большого объёма текста не очень желательно. Скорее даже очень нежелательно. Нет, я помимаю, что и микроскопом можно забивать гвозди, но для этого существуют гораздо более подходящие средства.

Для примера:двухигабайтный лог апача перлом парсился уть больше двух секунд. А пхп скрипел почти три минуты =)

[Удален]
#7

все зависит от реализации!

какие маски регекспов или используете ли вы вообще регекспы...(они тормозные... жуть бррр...)

а не от того, что это перл или пхп....

П.С спорить о том, что быстрее перл или пхп смысла вообще нет... я согласна что любой инструмент должен применяться только по назначению... и писать на пхп софт, работающий с lpt портами, глупо... хотя можно)

П.П.С можно пример пхп и перл скрипта.... уж очень слабо верится по поводу скорости разбора на перле...

Skom
На сайте с 02.12.2006
Offline
165
#8

По дефолту, пхп 8 мегами памяти ограничен.

Почему-то мне кажется, что если ему сказать memory_limit 500M, то он будет парсить поменьше, чем 3 минуты :D

Конечно перл будет почти всегда быстрее. Он же для регекспов и сделан.

Просто из-за сиюминутной задачи вникать в особенности работы с перлом не всегда необходимо.

Cras amet qui numquam amavit quique amavit cras amet
[Удален]
#9
Skom:
По дефолту, пхп 8 мегами памяти ограничен.
Почему-то мне кажется, что если ему сказать memory_limit 500M, то он будет парсить поменьше, чем 3 минуты :D
Конечно перл будет почти всегда быстрее. Он же для регекспов и сделан.
Просто из-за сиюминутной задачи вникать в особенности работы с перлом не всегда необходимо.

Полностью поддерживаю!

и вдогонку.. а если memory_limit 0M то вообще время пойдет назад;)

_
На сайте с 24.07.2002
Offline
299
_Ad
#10

А как нынче работают парсилки контента? Хочется защитить контент сайта (15 000 страниц).

Я правильно понимаю, что он выдирает контент заключенный между определенными тегами? Хотелось бы поподробней

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий