Dybra

Dybra
Рейтинг
84
Регистрация
23.10.2005

Обновился список, добавлено несколько хостингов, в основном российских, сидящих на РТком и Информцентер. Желающие - обращайтесь.

mrak:
Список должен быть динамичным, т.к. ситуация с ip нередко меняется. По этому банилка должна работать в кроне и анализировать разные временные промежутки. (10мин 1час 1Сутки).

Ну динамика тут не сильно важна, в действительности ip меняются редко. И при этом на 403 стоит заглушка с информацией, как можно снять это ограничение, связавшись со мной.

Проблему защиты от автоматов я для себя решил /ru/forum/182753

Грабильшиков, парсеров и анонимайзеров это отрезало. Но само сабой от ручного копипастинга и проблемы "первоиндексации" это не помогает.

2 Deni Ваш список неработоспособен. :) Нужно указыват либо начало IP, либо маску в виде IP/bit. Но может оно и к лучшему. Если бы оно работало, то заблокировалась бы почти вся Украина, Сибирь и половина Европейской части России. И, кстати, почему-то там очень много IP университетов. Но тем не менее информации там полезной много, большое спасибо за список.

Я свой список закончил и только что прикрутил на сервер. Я брал IP нарушителей, которых отловил сам, использовал список Deni, проглядел смежные диапазоны, проанализировал список хостеров с hostobzor.ru, включил туда несколько анонимайзеров, "гадителей" на форумы и гостевые. Так же поменял дефаутную страницу на 403 ответ, так что если случайно попадут живые пользователи, думаю они дадут мне об этом знать. Кто желаешь так же принять участие в эксперименте - готов поделится списком.

Прочитал топик. Так в общем и не понял, откуда у совы ростут руки и как эти совиные руки помогают при повышении ТИЦ. Или может это пТИЦ? Тогда почему совы? Типа джокер такой который дает "плюс пицот" или склеивает сайт по ТИЦ с Яндексом?

anser06:
А если у меня, как у многих, фид отдается через Feedburner?

Если поток берется непосредственно с вашего сервера, то фильтровать его можно. Если траслируется через чужой - то тут медицина бессильна. Хотя в общем там тоже можно настроить-поковырять, статистика там очень богатая.

Мехалоч:
вырезаются но не все

мне как-то побарабану.. я не жадный

один фиг бороться с этим - анрил

Дело не в жадности. "Вор должен сидеть в тюрьме" (с). Ну или хотябы в ограниченном пространстве своего сервера. Не согласен насчет нереальности борьбы - люблю делать невозможные вещи :) В общем собирание полного списка IP хостингов - дело времени, их всего-то не более 4Г. :)

Deni:
Ну собственно все ленты я у себя грохнул по умолчанию так как больше спамеров а не людей

Но сайтик просто парсят напрямую.
А я обрабатываю парсеров просто - пару раз в день смотрю айпишники посетителей и если с какого то более 500 обращений то смотрю поведение юзера на сайте. Если видна автоматическая работа И айпишник принадлежит компании оказывающей хостинг то баную всю подсетку.
Туда же попадают и прокси через которые парсят более продвинутые товарищи.
В сутки эта обработка занимает минут 5 если конечно нет массового парсинга.

Хотел написать под это все автоматизированную систему но возникла проблема корректно определять все поисковики. И забил на это.

Все грохать жалко. :) Многие действительно этим пользуются и даже хотя бы ради их стоит оставить ленты.

Может поделитесь своим списком? Попробую объединить его со своим и буду делиться с народом. Все равно рано или поздно IP всех основных хостингов будут вычисленны. Дело только во времени, но я готов его потратить на это.

Мехалоч:
я отдаю свой контент без проблем, мне не жалко.. ибо я в своем контенте проставляю ссылки на свои ресурсы и тыриться оно вместе со ссылками

PS дайош халявный PR!!!

1. Вырезаются ссылки без проблем

2. Им ссылки не помеха, это доры в основном, где много контента и еще больше всего остального, вплодь до редиректов и пачки банеров, рекламы, которая по объему превышает всю страницу чаще всего. Мог бы дать ссылку на пример, но это уже будет нарушение правил форума.

3. Делается это все на автомате скриптами типа.... ... не, лучше не буду говорить, но много таких.

anser06:
Расскажите, как вы отличаете автоматы от нормальных людей? Вот зашли к вам за сутки на сайт с 200 разных IP - и какие вы заблокируете?

Ну в общем довольно просто: анализируются не все IP, а только те, с которых происходило обращение к rss-каналам. Дальше обычным whois смотрится чей он и принимается решение о блокировке/не_блокировке. Процесс хорошо автоматизируется, я просто гляжу на владельца IP. Если это 100% хостинг - то жестко блокируется весь диапазон IP, принадлежащий этому хостеру. Это это интернет-провайдер, IP остается незаблокированным. Само собой, неприкосновенными являются диапазоны IP поисковиков и им подобным "полезных зверьков". :)

Trump:
Мне кажется всё это малорезультативно.
Будут значит парстить страницы, в чём проблема-то ? :)
Всё это погоня за собственной тенью.
Тут нужно законодательством давить, т.к. если захотят постоянно воровать новости/статьи - будут воровать, хоть сервер от интернета отключи.

Законодательства у нас можно ждать как у моря погоды, но это ж не значит, что не надо бороться. Парсить страницы автоматом тоже не получится, так как доступ с этих же IP блокируется, то есть защита от скриптов 100% (кроме подмены IP). От людей, само собой, это не поможет.

Kolyaj:
А по какому принципу определялись хорошие читатели?

В общем-то просто. Хорошие читатели не будут обращаться к сайту с IP хостингов. Максимум, кого я тут разрубаю из хороших - это работники самих хостингов.

А по-поводу замены-подмены контекста - это более трудоемко технически, к тому же за это меня в "Яндекс.Новости" думаю попросят удалиться. :)

Всего: 341