- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
неужели вы думаете, что никто не смотрит результат, который отображается?
Все 10-20 тысяч результатов? Хитрый владелец отдаст нужный результат каждый 3-5-10-рандомный раз.
да и чаще аяксовые данные еще проще парсить, так как они отдаются чаще в json, xml
Всегда считал, что как отдавать данные решает вебмастер. ;) Хоть шифровкой.
Да и не нужно отдавать все данные для страницы, а только то, что заменять. Плюс что именно менять - можно другим запросом отдавать.
Если захотят, спарсят что угодно
Само собой. ТС хочет всего лишь затруднить процесс...
Говорю то, что мне может затруднить парсинг: не отдавайте структуру сайта в открытом виде, т.е. затрудните максимально его обход. При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше. Таким образом тот кто захочет спарсить не сможет найти ту точку через которую сможет размотать весь сайт.
При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше.
Так она же потом в поиске появится, лучше карту сайта им скормить.
imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.
Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.
Еще не факт. Вот вызовет - обращайтесь.
Вот именно, еще не известно когда проект выстрелит и выстрелит ли вообще, но не хотелось бы, чтобы его подстрелили на начальном этапе взлета - до выхода в стратосферу :). И конечно, просто интересный никому еще неизвестный проект - это в глазах многих нехороших личностей не ровня высокопосещаемому интересному проекту, при виде которого в их глазах сразу начинают мелькать знаки $$$. Хотя на меня один раз при запуске перспективного проекта наехали с угрозами. Сейчас я практически уверен, что это были конкуренты и они не успевали со своим аналогичным проектом. Потом они кстати перегрызлись между собой. Так что всякое бывает, но это другая история.
Поэтому хотелось бы ограничиться простыми и безопасными, но эффективными (в плане увеличения трудоемкости парсинга) способами.
Итого, пока есть такие варианты:
1) Сделать невозможным парсинг структуры сайта. Разве что из поисковиков проиндексированные страницы им придется дергать. У поисковиков будет карта сайта, а у посетителей только строка поиска.
2) При попытке парсинга через некоторое количество страниц непредсказуемо выдавать искаженную информацию, например числа неправильные - в этом случае даже при ручной проверке каждой спарсенной страницы далеко не каждый поймет, что это лажа.
3) Register your data as database to send copyright infrigement letter to hosting/police/somewhere else in the future.
Так она же потом в поиске появится, лучше карту сайта им скормить.
imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.
Ну это еще надо ее там найти или знать что она там есть. Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок. Есть над чем подумать, но сильно усложнить и отбить желание таким образом можно.
То что касается, грузят ли при парсинге картинки и скрипты, то это зависит от парсера, если ему нужны картинки есс-но он их грузит, если нужны скрипты то и выполняет их тоже. В целом можно сделать полную эмуляцию браузера ( можно вообще через реальный браузер типа selenium). Вышеописанный мной способ обычно основная преграда, т.к. если сайт можно обойти, то вытащить информацию уже дело техники, понятно и здесь можно навставлять палки, но обычно все решается.
Есть еще способ, повесить демона, который следит за логами сайта и сохранять ip адреса обращений, при достижении некоторого неразумного лимита (количества) за скажем 1 мин, 5 мин. 10 мин. /час/день, делать на них whois и если они не принадлежат google, yandex, bing, rambler, mail.ru то банить эти ip, это будут или ненужные пауки типа ahrefs или парсеры. Но в этом случае решается большим или не очень (в зависимости от количества страниц) пулом proxy ip.
Оптимизайка, регистрировать пока нет смысла. Программный код по любому будет недоступен, а база данных по факту будет автоматически генерироваться, поэтому как набор данных не может быть объектом авторских прав. Можно конечно не упоминать об автоматической генерации, типа всё вручную делалось, но в общем не хочу замарачиваться, тем более на данном этапе.
---------- Добавлено 26.10.2016 в 00:16 ----------
Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок.
Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.
Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.
Да, все верно
я вас расстрою.
спарсить можно все. без труда.
все ваши защиты не обойдут запуск управляемой копии браузера.
а вы не обладаете уровнем знаний. чтобы уже на странице отличить живого юзера, от браузера управляемого через прокси
ваш сайт никому не нужен кроме вас. каждый день тысячи сайтов новых создаются. вот сидят конкуренты и генерят себе копию инета....
10 страниц в сутки.
потом они появятся в серпе и парсим просто выдачу.
10 страниц в сутки.
потом они появятся в серпе и парсим просто выдачу.
Так не нужно 10, нужна 1 точка входа, по которой поисковики найдут все остальное. А после того как они проиндексировали пожалуйста копируйте, но вы все-равно уже опоздали. Точка входа будет видна только поисковикам, поэтому заранее стырить контент не выйдет. Понятно, что если страница в браузере ее можно спарсить, но чтобы знать какие страницы вообще есть на сайте нужна точка обхода, и если вы ее не знаете обойти сайт не сможете. Все просто, в чем расстройство не ясно. Много раз сам так делал.