- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Убрать 90% парсеров и ботов можно легко, просто блокируя ненужные страны и подсети. А если детектить обращение к множеству страниц за короткий промежуток, то можно и 99% убрать, добавив в вайтлист нужные боты.
В блеклист все страны, откуда не идет основной трафик + подсети хостеров.
Защита от парсеров сокрытием стандартных путей... ну это дилетантство какое-то.
Мы, наверно, о разном говорим. В том то и дело, что лично мне на эти 100% ботов плевать, они мне не мешают.
Я конкретно про тех, кто целенаправленно, вручную пишут скрипты, чтобы весь контент сайта скопировать и на другой сайт вставить.
Как от таких защититься блэк-листами? Да никак, потому что они не боты, а живые люди.
Проверил свой сайт и рандомные, нет в выдачи карты сайта.
Значит Вам посчастливилось больше чем не.
Очень не приятно видеть в выдачи карту сайта в виде документа.
ПС: причину я нашел. В хедере передавался стандартный заголовок HTML/text страницы.
Исправил на XML и перезалил на новый адрес.
Но как говорится, осадочек остался.
Мы, наверно, о разном говорим. В том то и дело, что лично мне на эти 100% ботов плевать, они мне не мешают.
Я конкретно про тех, кто целенаправленно, вручную пишут скрипты, чтобы весь контент сайта скопировать и на другой сайт вставить.
Как от таких защититься блэк-листами? Да никак, потому что они не боты, а живые люди.
Никто не пишет парсеры конкретно под ваш сайт, плюс чаще это не парсинг а проксирование. Как раз эти скрипты и входят в те 100% ботов.
Никто не пишет парсеры конкретно под ваш сайт
Ну вот о чем дальше говорить, если такие смелые утверждения подаются? Уж мне то рассказывать это не надо, когда я сам с этим столкнулся.
Уж мне то рассказывать это не надо, когда я сам с этим столкнулся.
Как ты понял что конкретно под твой сайт? Какие меры защиты были приняты, кроме делитантского сокрытия пути сайтмапы?
Кто скрывал от парсеров свои сайтмапы
Мои сайтмапы только официальные роботы Бинг, Гугл, Мэйл.ру и Яндекс могут прочесть
По юзер-агенту определяете или по айпишникам?
причину я нашел. В хедере передавался стандартный заголовок HTML/text страницы.
Исправил на XML и перезалил на новый адрес
Индексируемую ссылку не забудьте на карту поставить.
И не думайте, что причина в хидере, при неких других обстоятельствах индексилось и Content-Type: application/xml
Ну и свой text/xml гугл индексит. Хотя по моим древним канонам - не должен бы
По юзер-агенту определяете или по айпишникам?