Под пингвина, пожалуйста, консольную :)
Буду на хостере гонять :)
AIR под Win2000 не поставился. Я, конечно, понимаю, новые технологии и всё такое :)
Получил результат:
398
Контрольные цыфры (Если верняя цыфра не совпала, то возможно одна из них ваша):
1
397
При этом страниц с ссылками было в районе 19000, а сайтов примерно столько, да.
Ох вот не думается мне, что в Я или у Лебедева непрофессиональные верстальщики. Видимо были на это причины.
На хабрахабре писали, что у GA какие-то проблемы с серверами возникли и часть статистики потерялось.
Делаешь поле
textarea с name="message" и скрываешь его через CSS
пользователю показываешь
textarea name="sdjfsdodfjaso"
после чего в скрипте смотришь, если в messsage что-то есть (а боты туда и пишут), то сообщение отправляется в топку. юзеру ничего делать не надо, JS не нужен.
Так в гугле же можно делать поиск по фиксированному набору сайтов (на его основе делаются поиски по эл. библиотекам и т.п.), или по какой-то причине непременно своё двигло нужно?
На том же дримхосте почти невозможно работать по SSH из-за пинга за 200 мс.
Идея не нова (/ru/forum/comment/1415193), но работает отлично, у меня за 3 месяца ~2000 сообщений в форум так отфильтровалось, и штук 10 прошло. Форум без регистраций и пользователь вообще ничего не замечает.
Алгоритмов много, область хорошо раскопана.
Рекомендую ознакомиться с курсом Юрия Лифшица:
http://logic.pdmi.ras.ru/~yura/internet.html
там есть материалы как и по кластеризации (слайды, конспект, ссылки) так и по многим другим любопытным темам.