- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как интернет-магазину продуктов питания за год увеличить количество заказов в 4 раза. Кейс
После сильного падения трафика из-за некорректного переезда сайта
TRINET.Group
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят (по другому не назвать), люди из-за этого попадают в деньги(настройка и оптимизация сервера, защита от сCURLвившихся самоучек). Затирать тут про якобы поисковые системы не нужно, User-agentа тогда не нужно выдумывать, чтобы не забанили, у Вас ума не хватает на собственный материал, уникальный? Темы в разделе Yandex сейчас пестрят о дубликатах сайтов, ворованном контенте. В этой теме я, например, не вижу, о каком администрировании говорят, похоже Ваша тема в этом разделе.
что-то массова стала бизнес-модель ПП (попарсить-п........) :), уже даже нашел московскую контору по администрированию, которая у нас уперла текст сайта....
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят (по другому не назвать)
Кстати верное замечание. Имейте совесть. Ну парсите, но блин, зачем еще и сервак класть?
bimcom, проще всего взять ещё один дешёвый хостинг на другой домен. Там создать скрипт (к примеру get.php) со следующем содержанием:
После заменить в парсере "адрес_откуда_парсим" на "адрес_другого_хостинга/get.php?url=адрес_откуда_парсим".
Даже если сайт пока небанили, разумнее парсить с другого IP.
Я тоже так думал, но чет виртуальный хостинг за трафик сильно переживает + постоянное перерасход ресурсов - в объщем VPS дешевле и выгоднее. + В вашем примере нет учета таймаута - что не есть хорошо.
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят
Кстати верное замечание. Имейте совесть. Ну парсите, но блин, зачем еще и сервак класть?
Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.
А вот в 10 - 100 - 1000 потоков парсится выдача яндекса, вордстат, статистика рамблера - т.к. тут уже количество материала измеряется десятками миллионов страниц и если тащить с 1го IP то пару лет можно прождать. Такчто будьте спакойны за свои сервера и молитесь чтобы их боты яндекса и гугла с рамблером не завалили.
что-то массова стала бизнес-модель ПП (попарсить-п........) , уже даже нашел московскую контору по администрированию, которая у нас уперла текст сайта....
Как зашедший в эту тему администратор серверов - лучшеб сказали че полезное - например можно ли уменьшить объем потребляемой памяти httpd процессом, а то щас каждый поток потребляет 5904 Кб, а хотелось бы меньше.
PS.
В этой теме я, например, не вижу, о каком администрировании говорят, похоже Ваша тема в этом разделе.
Для дорвеев контент вааааще не нужен ;)
Попробуйте без мультикурла - просто на курле, но дергать этот скрипт через кучу сокетов - аля многопоточность получается.
Это, как мне кажется, совсем извращение... :)
ЗЫ. Спасибо всем "доброжелателям" за минусы в репу... :) Не думал, что будет такая реакция... парсим мы вообще то не сайты пользователей, а поисковые системы для анализа ссылок, позиций, конкуренции... как на этом форуме делает большинство СЕО-шных фирм! ☝
Это, как мне кажется, совсем извращение... :)
Там где многопоточности нет - приходится её придумывать :( Надеюсь скоро это изменится.
Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.
А вот в 10 - 100 - 1000 потоков парсится выдача яндекса, вордстат, статистика рамблера - т.к. тут уже количество материала измеряется десятками миллионов страниц и если тащить с 1го IP то пару лет можно прождать. Такчто будьте спакойны за свои сервера и молитесь чтобы их боты яндекса и гугла с рамблером не завалили.
Вот тут - полностью поддержу. 🍻
Кричат о "ай, нас положили парсеры" обычно владельцы ГС на 50 страниц на говнохостингах в оправдание перед самим собой за то, что ГС вылетел из индекса :)
sokol_jack добавил 20.03.2009 в 10:58
Там где многопоточности нет - приходится её придумывать :( Надеюсь скоро это изменится.
А чего надеятся? Просто юзать что-то "более другое", чем php ;)
Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.
Не надо ля-ля... У меня сайт на 50K страниц есть. Мне ждать когда Вы его за 50 минут спарсите? Причем тут самописный уник? Есть сайты-справочники, у них в порядке вещей по 50-200K страниц.
sokol_jack, Вы прежде чем аплодировать, разберитесь в ситуации. Я не против парсинга, но создавать дикую нагрузку на ресурсы это уже ни в какие рамки.
Не надо ля-ля... У меня сайт на 50K страниц есть. Мне ждать когда Вы его за 50 минут спарсите?
Поверьте - те кто занимался граббингом - в первую очередь заинтересованны тобы ваш сайт не завалить - т.к. при завале он контент не отдаст и придется тащить все заново, а вот 50 минут или 1 день парсить сайт - значения не играет, а вот если параметры 1 неделя или 1 год - вот тут уже и нужны IPки и куча потоков.
Если вы за трафик переживаете - так исходящий вроде везде бесплатен, этож не флуд вам на порт.
Причем тут самописный уник? Есть сайты-справочники, у них в порядке вещей по 50-200K страниц.
Что за справочники такие которые будет легче отпарсить чем найти оригинал? и его обработать?
Или вы про доски объявлений?
bimcom, по граббингу. Делайте это так, чтобы не напрягать владельца ресурса. Это все о чем я хотел сказать. Всегда можно определить максимальный поток который держит сайт и начать фигачить чтобы быстрее собрать данные. А можно быть чуть скромнее и не нагружать по максимому сайт.
По поводу оригинала, не понял. Я и говорил про оригинал, а не клоны, которые тупо спарсены и выложены в том же виде.