- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть потребность взять контент с одного сайта (15 000 страниц) и перенести на другой сайт все это дело, что для этого потребуется, скрипты, самописные программы, руки? P.s. Контент текстовой.
Проще всего через wget в режиме зеркалирования :)
А потом уже локальную копию и парсить можно. По желанию.
wget, teleport
Отлично, спасибо парни, без вас и форума нет! :)
Юзаю Teleport - отличная прога!
Юзаю Teleport - отличная прога!
wget -> php + регекспы ;)
Использовать php для парсинга большого объёма текста не очень желательно. Скорее даже очень нежелательно. Нет, я помимаю, что и микроскопом можно забивать гвозди, но для этого существуют гораздо более подходящие средства.
Для примера:двухигабайтный лог апача перлом парсился уть больше двух секунд. А пхп скрипел почти три минуты =)
все зависит от реализации!
какие маски регекспов или используете ли вы вообще регекспы...(они тормозные... жуть бррр...)
а не от того, что это перл или пхп....
П.С спорить о том, что быстрее перл или пхп смысла вообще нет... я согласна что любой инструмент должен применяться только по назначению... и писать на пхп софт, работающий с lpt портами, глупо... хотя можно)
П.П.С можно пример пхп и перл скрипта.... уж очень слабо верится по поводу скорости разбора на перле...
По дефолту, пхп 8 мегами памяти ограничен.
Почему-то мне кажется, что если ему сказать memory_limit 500M, то он будет парсить поменьше, чем 3 минуты :D
Конечно перл будет почти всегда быстрее. Он же для регекспов и сделан.
Просто из-за сиюминутной задачи вникать в особенности работы с перлом не всегда необходимо.
По дефолту, пхп 8 мегами памяти ограничен.
Почему-то мне кажется, что если ему сказать memory_limit 500M, то он будет парсить поменьше, чем 3 минуты :D
Конечно перл будет почти всегда быстрее. Он же для регекспов и сделан.
Просто из-за сиюминутной задачи вникать в особенности работы с перлом не всегда необходимо.
Полностью поддерживаю!
и вдогонку.. а если memory_limit 0M то вообще время пойдет назад;)
А как нынче работают парсилки контента? Хочется защитить контент сайта (15 000 страниц).
Я правильно понимаю, что он выдирает контент заключенный между определенными тегами? Хотелось бы поподробней