Если нужно отфильтровать зарубежных роботов (базу IP берем Free/Open Source GeoLite Country, обновляется ежемесячно, достоверность распознавания 97%), можно для подозрительных IP ввести дополнительный комплекс мер, как то:
1. Установить captcha код (картинку с циферками/буковками) для постинга.
2. Редиректить на JavaScript на специальную страницу для постинга, на которой проверять поле Referer и предварительно выставленную cookie.
Таким образом посетители из России ничего не заметят, живые люди с зарубежных IP тоже смогут работать, испытывая лишь небольшое неудобство от необходимости вводить captcha-код.
А роботы в массе своей будут отсечены необходимостью исполнения JavaScript, распознования captcha И установки правильного Referera.
А ссылочкой на книжку не поделитесь?
Paninaro, наверное я зря вам отвечаю, т.к. вместо анализа ситуации вы переходите на личности, но все же еще один раз я себе позволю написать в эту ветку.
Прежде всего, ваша обида за потерю источника трафика совершенно понятна. С другой стороны, ни один из крупнейших каталогов от яндекса не пострадал, а массово забанили кучу фактически немодерируемых каталогов, созданных владельцами для открутки PPC трафика, поднятия Тиц/Виц и ссылочного ранжирования.
Владельцы сайтов кормили вас через 1ps и Uhuhu однотипными описаниями и вы не модерируя принимали их в каталог, а теперь обиждатесь что Яндекс посчитал ваш каталог не имеющим ценности для посетителей.
Вы не посчитали возможным/необходимым нанять штат редакторов для проверки и правки описаний, за что и наступила расплата.
Подумайте, в чем ценность именно вашего каталога для живых людей, а не роботов поисковых систем?
И я совершеннол четко знаю что если вы сделаете ваш каталог ценным для людей (критерием может служить доля трафика из закладок >50%), то все санкции с вас будут сняты.
Я не собираюсь вас в чем-то обвинять, просто хочу дать вам пищу для размышлений над тем что делать с забаненным каталогом и как планировать новые проекты, чтобы через год не получить очередной бан.
На этом все и в данной теме я прощаюсь и желаю вам удачи.
300 модераций за 1 час - это получается примерно 12 сек. на каждый сайт, т.е. совершенно очевидно что на сам сайт вы не заходите, соответствие сайта его рубрике и описанию не проверяете, да и сам текст описания при такой скорости редактировать практически невозможно.
Вся ваша модерация - это просмотреть список 300 заявок на включение в каталог и поставить галочки напротив 100, описание и тематика которых (судя опять же по описанию, не по сайту) кажется вам приличной.
Итог - модерация в каталоге отсутвует, цель каталога - сбор трафика по НЧ запросам с откруткой на PPC. Ну и зачем это нужно Яндексу.... ?
Если уж хочется собирать трафик таким образом - сделайте нормальный сервис social bookmarking (http://del.icio.us), тем более что хороших раскрученных аналогов в Рунете нет. Вот за это вам точно скажут спасибо, в том числе и Яндекс, даже не смотря на Яндекс.закладки.
Только что проверил весь список http://yaca.yandex.ru/yca/ungrp/cat/Computers/Internet/Catalogues/ (первая страница) - ни один зе забанен, количество страниц в индексе Яндекса - от 20 до 60 тысяч. О каком массовом бане каталогов идет речь?
Скорее всего, еще не все потеряно для забаненых сайтов. Яндекс вправе исключать сайты из поискового индекса, но для этого правила должны быть опубликовы и одни для всех. Неправомерна текущая ситуация с каталогами, когда их удалили из поискового индекса 1) без объяснения причин, 2) навсегда.
Судебное разбирательство может помочь получить от Яндекса четкое объяснение за что именно конкретный каталог был удален из индекса. И вполне вероятно что Яндекс заставят включить каталог в индекс снова по факту устранения нарушений поисковой лицензии Яндекса.
Вполне вероятно что судиться не потребуется. Позвоните в Яндекс, договоритесь о личной встрече, решите вопросы путем нормальных деловых переговоров. Если с вами и вашим бизнесом все в порядке и ваш каталог - это не результат работы роботов по автоматическому парсингу серпов с целью получить трафик для отмывки на PPC, а результат ручной работы модераторов, вложенных денег и времени - все вопросы решатся.
Для примера рекомендую посмотреть на аналогичные ситуации с зарежными сайтами, забаненными в свое время Гуглем и сейчас снова присутствующими в индексе. Часть из этих сайтов решала пролблему бана в несудебном порядке, часть - в судебном.
http://www.seroundtable.com/archives/003511.html
Wordpress Banned by Google for Spamming
German BMW Banned From Google
Google Purges The People's Cube Worldwide
Google In Controversy Over Top-Ranking For Anti-Jewish Site
Уважаемые господа владельцы каталогов,
Если ваш каталог зарегестрирован на юридическое лицо (судя по моему анализу текущей ситуации таких каталогов несколько, пара очень крупных и поддерживаемых серьезными фирмами) и вы не чувтствуете за собой нарушений лицензии Яндекса, есть совершенно нормальная процедура подать на Яндекс в суд, т.к. сервис Яндекса является общественно-значимым, и т.к. заведомо каталоги с аналогичными нарушениями остались в выдаче, то есть ущемление ваших прав.
Причем подать лучше в региональный суд, получить решение [в вашу пользу] и создать прецендент по которому Яндекс будет обязан индексировать ваш сайт.
По сути, другого варианта воздействия на Яндекс нет. Или вы признаете что это частная компания, которая хочет-индексирует, хочет-нет ваш каталог, и вы с этим миритесь. Или вы заставляете их, в том числе в судебном порядке, считаться со всеми игроками на вашем рынке.
Вполне возможно, что судебное решение будет в вашу пользу, особенно если дело будет рассматривать не в Москве, а в вашем областном суде.
Другой способ - это тихо просидеть пару месяцев на трафике с Google+Rambler, а потом, когда улягутся страсти по текущей ситуации, снова обратиться в Яндекс с просьбой включить в индекс.
Ну и третий способ - сделать свой поисковик (см. дорвейщики, они же не дураки и Webalta индексирует сайты со страшной силой) и заставить пользователей полюбить ваш поисковик, в том числе и релевантностью выдачи. Именно так Yandex победил Rambler, а Google - Altavista.
И напоследок - делайте сайты для людей, и воздастся вам сторицей.
Sic.
Если у вас есть свой *nix сервер, то реализовать автоматическую генерацию скриншота сайта не составит труда. Правда только из-под броузеров, работающих на *nix, т.е. Opera или на движке Mozilla.
Впрочем, этого должно хватить, т.к. вид сайтов в этих броузерах от IE практически не оличается. Если вырезать оформление самого броузера, то определить в чем сделан скриншот будет весьма затруднительно.
Плюсы в иcпользовании настоящих броузеров очевидны - поддержка всех современных технологий, в том числе правильный вид сайтов на Flash, с использованием Java, JavaScript и CSS.
Минус - довольно большая загрузка сервера. Хотя несколько тысяч скриншотов в сутки - не проблема для сервера PIII 1000 MHz.
Подробные инструкции см:
WMW Forum: How can i create screenshot of url
Anton Titov: How to make site screenshots with linux server
Практически пошаговые инструкции, если работаете на *nix разберетесь за пару часов максимум.
http://www.maxmind.com/app/locate_ip - страна, город, провайдер, организация, которой принадлежит IP адрес.
Обратите внимание на то что Робот Яндекс каталога (Yandex/2.01.000 (compatible; Win16; Dyatel; C)) делает только HEAD запрос для проверки что сайт жив, а не GET, как индексирующие роботы поисковиков. Если ваш хостинг позволяет, отлавливайте робота по User-Agent и типу запроса и выдавайте 404.
Тогда ваш сайт выпадет из каталога, а позиции в поиске останутся без изменений.
D.O., регистрация доменов .cn доступна свободно для всех желающих, например на www.networksolutions.com это удовольствие стоит 40$ в год. Докладывать куда-либо или подписывать документы не нужно, домен будет ваш автоматически в течение суток.
Относительно хостинга не подскажу - если сайт направлен исключительно на аудиторию Китая, может и имеет смысл использовать локальный хостинг с точки зрения ранжирования в китайских поисковиках и быстроты местных каналов.
С точки зрения доступности сайта - часто бывая в Китае я ни разу не столкнулся с тем чтобы хоть один нужный мне сайт был зафильтрован. Бизнес-сайтов цензура не касается.