- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.
Ставьте правильно постановку задачи... :) Одного потока wget-а вполне достаточно для парсинга всего сайта.
Ограничить количество страниц в секунду можно limit_req. Только не забудьте, что лимины нужно устанавливать только на страницы, т.е. картинки, графику, скрипты, цсс-ы нужно отдавать без лимитов.
Да зачем... Может, проще скрипт какой на перле накатать, который будет слишком активных в .htaccess заносить?
Если они у вас все тырят включая разметку, то добавляйте ссылки в текст на ваш сайт, и визуально стилями сделайте их обычным текстом. Или добавляйте в тексты. что материал скопирован/взят с сайта ...
А так, выше уже сказали спарсить можно практически все. Но вашу цель вы достигните если немного будете менять верстку.
Одного потока wget-а вполне достаточно для парсинга всего сайта.
Одно дело ждать часы, а другое - неск мин :) Не стоит забывать и про всякие 404/302 (а то и 502) и внешние сервисы (гуглошрифты, аяксы, вк/ок/фб, дискуссы, счётчики и пр)
Даже в браузерах многопоточка.
Один поток не остановит "злодеев" - им-то как раз качать не много и по хорошим каналам, а вот людям создаст геморой.
Даже в браузерах многопоточка
Двухпоточка, на самом деле, если не влезть в конфиг и не поменять ручками настройки.
Двухпоточка
8ми, как я видел в ФФ на винде. МБ зависит от браузера. Помниться в старой опере дефолтно тоже было 8 и настраивалось в фейсе.
Выводите некоторые данные ajaxом. Например, какие-то цифры, адреса и т.п., смотря что там у вас. Поисковикам они не нужны, делается легко, а граберам головняка добавят ощутимо. Другой вариант - выводить их картинкой. Можно не все, а случайным образом.
Если вы создадите систему, которая отлавливает слишком активных, то лучше не блокировать их (слишком для них очевидно), а подсовывать левые данные, например, менять цифры на неправильные или менять данные из других записей. И не всегда, а случайным образом. Делается легко, поисковые боты в порядке, граберы незаметно получают бракованные данные. Все счастливы.
borisd, предлагаю подшутить на копипастерами, как я недавно сделал на одном (тогда еще своем) сайте.
Ручные копипастеры не сильно мешали, другое дело - практически моментальный репост на автомате (и появление в поиске дублей копирайта).
В общем, собрал ip с которых работали грабберы (все работали на тех же серверах, где лежали сами сайты) и в той части поста, которая идет после "читать далее" все картинки заменил на такую(мат), а текст на "Этот пост мы пытались стянуть с сайта... Читайте его лучше на первоисточнике >>".
В итоге на главных страницах сайтов-доноров и в категориях все выглядело "ок" (ибо до "читать далее" контент не изменялся) и при беглом визуальном контроле злодей ничего не замечал. Зато реальные посетители, переходя внутрь постов, очень даже замечали. :)
Было весело + профит: уникальный текст поста не копируется в момент публикации, посетители доноров переходят ко мне, чтобы исправить парсер нужно нанять разработчика, который допишет граббер под прокси, плюс постоянно держать свежие прокси.
Где-то около недели провисели у них такие посты. Потом репостинг прекратился.
Стили...
А что с таким делать???
А что с таким делать???
Такой текст на вашем сайте поисковики скорее всего не "проглотят". Вы же слова рвете. Ну а копипастер просто регуляркой вырежет все лишнее и получит хороший ровный текст.