Так это ж вроде многострадальный list.ru
Ну я же не рассказал, каким образом все это обрабатывается Я всего лишь показал, что "видит" робот.
Вообще я хотел показать, как робот обрабатывает содержимое документа и поэтому совсем отключил картинки.
[This message has been edited by Vyacheslav Tikhonov (edited 19-11-2001).]
2funsad: я уже знаю о "пропадающих" запросах. Почему-то они вечно пропадают только у Яндекса
А пожелания в будущем постараюсь учесть.
На CPAN лежит библиотека Lingua. Модуль DetectCharset, в нее входящий, предназначен для определения кодировки документа.
Только перед тем, как пропустить запрос через детектор, его нужно перевести из hex в ASCII.
Вообще-то проиндексировано будет, но из-за фреймов плохо:
http://media.topping.com.ua/cgi-bin/search/robot.pl?url=http://www.microsell.com.ua/
Потом пойдет по index1.htm и тут уже более-менее что-то видно:
http://media.topping.com.ua/cgi-bin/search/robot.pl?url=http://www.microsell.com .ua/index1.htm
Ну а Javascript конечно, индексироваться не будет.
А можно и без IP, и без User-Agent
"Воспитанный", как говорит Яндекс, робот, сначала запрашивает с корня robots.txt, а уже потом сами документы. Вот по нему роботов и ловите.
Да, приходы без поисковых фраз я не учитываю.
Но тут дело в другом - действительно где-то есть глюк - у Яндекса теряются отдельные поисковые слова. При этом я протестировал парсер - там все нормально.
Я еще не нашел где, но, похоже, при подбивании статистики при каких-то условиях отдельные запросы выпадают.
Topping не может стать народным счетчиком по нескольким причинам:
1. Причина первая, и основная.
Процитирую:
- у вас вроде Питерский сервак, а города интересуют хохловские?
А ведь даже если бы была детализация по российским городам и т.д., с точки зрения российских пользователей мы все равно будем оставаться хохляндским счетчиком
2. Несмотря на то, что счетчик сейчас работает на собственном web-сервере (а не на Апаче) и примерно на 5-ю часть своих мощностей, сейчас он обсчитывает около 7 тыс. сайтов. То есть в идеальном случае на сервак будет приходиться 35 тыс. сайтов. Сколько там их у Спайлога? 200 тысяч? А какой траффик?
Не думаю, что Topping сейчас готов к таким серьезным капиталовложениям непонятно во что.
Я полагаю, что ситуация будет развиваться следующим образом: счетчик штука специфическая, поэтому при достижении какого-то критического значения пользователей (многое здесь, конечно, будет зависеть от технологий, которые применяются) Hotlog просто начнет потихоньку умирать, как это происходило с начала этого года со Спайлогом, или наберет достаточное количество пользователей и займется зарабатыванием денег.
У меня такое подозрение, что освободившуюся нишу в скором времени займет Rambler Top'100 - у них все для этого есть, и опыт, и материальные активы. А давать такие же отчеты, как Спайлог, не так уж и сложно, это же всего лишь обычная статистика.
В принципе, используя данные нашего счетчика я мог бы разработать глобальный сервис с информацией по запросам в наиболее крупные поисковые системы, пусть даже в основном для украинских сайтов.
Но тут вопрос в другом. Хотя в данном случае информация будет получена косвенным способом и без того же Яндекс.Direct, имею ли я право ее использовать?
Хотя логически все абсолютно легально, однако никому из поисковиков это естественно не выгодно.
Снова ключевые слова пропадают? По идее, я это уже исправил. Только что добавил NL и Punto.
А что с Яндексом? У меня была недоработка, по которой при заходе в статистику по серверам в Яндекс показывалась статистика и за yandex.ru, и за www.yandex.ru, это?