- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Это пока просто скрипт который вытягивает html с сайта http://www.radiostyle.ru. Время обратки очень долгое и сильно скачет. В основном 3-5 секунд парсит, но бывает и 12 милисекунд а бывало и до 25 секунд доходило. Когда ставлю вместо сайта http://www.radiostyle.ru, яндекс, парсит 20 милисекунд. Почему другой сайт так долго парсит, при этом если перейти на сайт ручками, по кликать, грузиться он достаточно быстро.. Помогите, пожалуйста, решить проблему...
у меня нормально грузиться
1. По всей видимости у вас кеш в браузере, по этой причине и быстро
2. Если парсите не с локалхоста, а с сервера - то значит у сервера канал шире
3. Возможно на сайте кеширование, страницы вне кеша долго грузит, а вы грузите ранее открываемые страницы сайта
4. Нагрузка на сайте который парсите скачет
Ускорить можно потоками на парсинг.. +
Что за потоки на парсинг?
Что за потоки на парсинг?
Многопоточный парсер, т.е. парсинг в несколько независимых процессов скачивания, а не в один. У вас сейчас парсит страницы в 1 поток. Это долго, так как пока контент страницы не будет получен, функция не приступает к скачиванию другой страницы.
Для примера:
http://stupid.su/php-curl_multi/
В гугле множество примеров: multi curl, async sockets, thread process или же простые php -q, fopen php и т.п.
Я так понял страниц достаточно много для парсинга и их нужно постоянно обновлять. Если нет, то все в один поток скрипя байтами можно тянуть.
Попробуйте воткнуть в парсер метрики чтобы можно отследить какой участкок кода у вас медленно работает. Вполне возможно что у вас сама часть ответственная за разбор DOM-дерева как то не так написана и гоняет бесконечные и бесполезные циклы. Хотя все же склоняюсь к тому что медленней всего будет именно часть которая забирает данные с сервера.
Самое интересное что работать должно намного больше ибо:
1) На серверах обычно шире канал
2) Для получения данных скрипт сделает всего 1 запрос в то время как клиентский браузер будет еще грузить картинки, css и js
Также вполне возможно что на сервере с которого парсятся данные стоит ограничение на кол-во запросов с одного ip в определенный промежуток времени либо даже ваш парсер «подвешивает» тот сервер. Попробуйте одновременно с запуском парсера походить по страничкам сайта.
Также я смотрю что при парсинге вы логинитесь на сайте, довольно часто на сайтах делают кеширование только для анонимных посетителей, загруженные же все видят без кеша и вполне возможно что это создает нагрузку на том сайте.
Спасибо за инфу, сейчас буду разбираться