- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Имеется сайт с хорошо структурированной информацией. Многие со временем создали его клоны, причем тупо парсят вместе с разметкой и стилями.
В общем решил создать сложности парсерам. Ручной копипаст мне вреда не приносит.
Пока в голове крутятся мысли смены классов у стилей или смены разметки, например чтобы все страницы немного друг от друга разметкой отличались или чтобы разметка на лету немного рандомно менялась...
Может у кого идеи какие будут, как с минимальными усилиями программно усложнить жизнь парсеров? Конкуренты там сами не спецы в программировании - пусть на каждый чих нанимают спецов.
Также хотелось бы понять, как к таким постоянным изменениям разметки отнесутся поисковики?
Пару простых вариантов, отпугнут школьников которые тупо запрашивают страницу типа file_get_contents
Проверять на не пустой user-agent, если пустой то тупо редиректить. Решается в две строчи в htaccess.
Второй по сложней.
Проверка включенного javascript и записанного куки JS скриптом.
Если user-agent не поисковый робот/разрешенный бот и не записана кука, то редиректить на специально подготовленную страницу со скриптом который пишет некую куку к примеру valid=true и перенапровляет обратно на точку входа и так по кругу пока не запишится кука скриптом.
Разметку менять это скорее плохой вариант.
rereg, нет, по поисковым роботам я фильтровать не хочу, т.к. любая ошибка будет сильно критичной.
Но у меня не стоит задача полностью запрещать парсинг, мне достаточно лишь усложнить его, но усложнить осторожно, не навредя сайту. Инфа там структурированная, поэтому при парсинге имеет значение как блоки вычленять. Также информация такого рода, что недопустимы искажения. И информация периодически обновляется, поэтому парсят ее также периодически.
В общем если у копипастеров возникнет регулярно постоянно обращаться к программисту для перенастройки парсера, это меня устроит.
Или вообще не дергаться? У меня сейчас по посещаемости и всем прочим параметрам 4-100 кратное преимущество.
Это невозможно. Все можно украсть. Забейте. Подумаешь день посидеть. Да ваши эти стили и id не стучат. У вас есть шаблон - он и есть ключ. Вы можете менять верстку случайно? Ну и все.
ЗЫ я систематически пишу скрипты для тыренья и знаю что говорю. Стили и ID это так, mercy сказать, with no mercy я стырю все точно так же.
Вы можете менять верстку случайно?
Могу без проблем. Там десятки тысяч страниц. Пока подумываю над вариантом небольших изменений верстки в зависимости от содержимого страницы, например от объема или еще чего-нибудь. Т.е. некоторые страницы будут отличаться версткой.
Или просто буду периодически (раз в несколько месяцев) менять верстку, так как не дело, что они и верстку блоков один в один копируют - поисковики этого не любят.
Подчеркну - воровство самого по себе контента меня мало волнует, проблема в том, что они копируют всё до малейших деталей, включая структуру информации и стили.
Никак.
Захотят - что угодно спарсят
Захотят - что угодно спарсят
Это я понимаю. Но меня устроит простое усложнение жизни парсера и удорожание услуг программиста. Те, кто действительно представляет проблему, не являются сами IT-специалистами, они будут нанимать программиста на каждое изменение парсера, а это деньги и время. Думаю, большинство из них забъет на регулярные парсинги и останется с тем вариантом, который успели спарсить ранее. Это меня также устроит.
Для начала забаньте все ip-подсети основных провайдеров, откуда к вам лезут. Далее - поставьте лимиты на кол-во загружаемых страниц в час. Это не потребует вносить никаких изменений на сайт.
Насколько я в курсе, у какого-то cdn была защита от ботов (cloudfront вроде) - сначала загружалась страница, там выполнялся js и затем уже открывалась нужная страница.
Еще есть какая-то защита на https://www.crunchbase.com/ - попробуйте дернуть несколько раз страницу скриптом - там по-моему будет название сервиса.
Но это если внешние сервисы использовать - они денег стоят и как на Seo отразятся - не знаю.
Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.
Хотя я в принципе наверно смогу точно узнать, с каких ip идет интересующая меня закачка. В общем надо подумать над этим вариантом, спасибо.
Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают
Люди скачивают из дома, а злодеи - из серверов на амазоне, хетцнере и пр. Баньте хостинги.