Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by EDS:
http://top.mail.ru
- бесплатно и география
и страницы
и откуда пришел народ
Меня он устраивает полностью (пока)
</font>

Так это ж вроде многострадальный list.ru

<font face="Verdana" size="2">Originally posted by AiK:
Теперь - да , а час назад на моём сайте выдавалась одна картинка, выводимая cgi-скриптом.
А не боязно, что комментариями заспамят?
</font>

Ну я же не рассказал, каким образом все это обрабатывается Я всего лишь показал, что "видит" робот.

<font face="Verdana" size="2">Originally posted by AiK:
Забавно, topping индексирует содержимое комментариев, а картинки вообще не понятно как считает...</font>

Вообще я хотел показать, как робот обрабатывает содержимое документа и поэтому совсем отключил картинки.

[This message has been edited by Vyacheslav Tikhonov (edited 19-11-2001).]

2funsad: я уже знаю о "пропадающих" запросах. Почему-то они вечно пропадают только у Яндекса

А пожелания в будущем постараюсь учесть.

<font face="Verdana" size="2">Originally posted by Sys:
Как корректно распознавать кодировки в таких запросах? Т.е. я так полагаю, должен существовать уже изобретенный алгоритм.</font>

На CPAN лежит библиотека Lingua. Модуль DetectCharset, в нее входящий, предназначен для определения кодировки документа.

Только перед тем, как пропустить запрос через детектор, его нужно перевести из hex в ASCII.

[This message has been edited by Vyacheslav Tikhonov (edited 19-11-2001).]

<font face="Verdana" size="2">Originally posted by Kokoc:

Вопрос: будет ли проиндексирован поисковыми роботами содержимое этих файлов?
</font>

Вообще-то проиндексировано будет, но из-за фреймов плохо:

http://media.topping.com.ua/cgi-bin/search/robot.pl?url=http://www.microsell.com.ua/

Потом пойдет по index1.htm и тут уже более-менее что-то видно:

http://media.topping.com.ua/cgi-bin/search/robot.pl?url=http://www.microsell.com .ua/index1.htm

Ну а Javascript конечно, индексироваться не будет.

[This message has been edited by Vyacheslav Tikhonov (edited 19-11-2001).]

<font face="Verdana" size="2">Originally posted by Iva3000:
Здравствуйте!
А как можно поределить заход робота поисковой машины? Можно по IP или нужен обязательно User-Agent?
</font>

А можно и без IP, и без User-Agent

"Воспитанный", как говорит Яндекс, робот, сначала запрашивает с корня robots.txt, а уже потом сами документы. Вот по нему роботов и ловите.

<font face="Verdana" size="2">Originally posted by wolf:
Просто в отчете по поисковикам отрубаются приходы из каталога Яндекса.</font>

Да, приходы без поисковых фраз я не учитываю.

Но тут дело в другом - действительно где-то есть глюк - у Яндекса теряются отдельные поисковые слова. При этом я протестировал парсер - там все нормально.

Я еще не нашел где, но, похоже, при подбивании статистики при каких-то условиях отдельные запросы выпадают.

<font face="Verdana" size="2">Originally posted by west:
Желающие уже есть.
Hotlog ( http://www.hotlog.ru ) например.
Пока, конечно, дико кривой, но он молодой, ему простительно.

Интересно мнение народа насчет Topping.
</font>

Topping не может стать народным счетчиком по нескольким причинам:

1. Причина первая, и основная.

Процитирую:

- у вас вроде Питерский сервак, а города интересуют хохловские?

А ведь даже если бы была детализация по российским городам и т.д., с точки зрения российских пользователей мы все равно будем оставаться хохляндским счетчиком

2. Несмотря на то, что счетчик сейчас работает на собственном web-сервере (а не на Апаче) и примерно на 5-ю часть своих мощностей, сейчас он обсчитывает около 7 тыс. сайтов. То есть в идеальном случае на сервак будет приходиться 35 тыс. сайтов. Сколько там их у Спайлога? 200 тысяч? А какой траффик?

Не думаю, что Topping сейчас готов к таким серьезным капиталовложениям непонятно во что.

Я полагаю, что ситуация будет развиваться следующим образом: счетчик штука специфическая, поэтому при достижении какого-то критического значения пользователей (многое здесь, конечно, будет зависеть от технологий, которые применяются) Hotlog просто начнет потихоньку умирать, как это происходило с начала этого года со Спайлогом, или наберет достаточное количество пользователей и займется зарабатыванием денег.

У меня такое подозрение, что освободившуюся нишу в скором времени займет Rambler Top'100 - у них все для этого есть, и опыт, и материальные активы. А давать такие же отчеты, как Спайлог, не так уж и сложно, это же всего лишь обычная статистика.

<font face="Verdana" size="2">Originally posted by Yura_Z:
Так есть ли у кого нибудь информация по русским запросам?</font>

В принципе, используя данные нашего счетчика я мог бы разработать глобальный сервис с информацией по запросам в наиболее крупные поисковые системы, пусть даже в основном для украинских сайтов.

Но тут вопрос в другом. Хотя в данном случае информация будет получена косвенным способом и без того же Яндекс.Direct, имею ли я право ее использовать?

Хотя логически все абсолютно легально, однако никому из поисковиков это естественно не выгодно.

<font face="Verdana" size="2">Originally posted by Gray:
Слава, надо откорректировать список поисковиков. Счетчик понятия не имеет о таких поисковиках, как Northern Light и Punto, например.
Плюс к тому - такие же ошибки, что приводит Артем - не распознается реферрер типа yandex.ru, при том, что www.yandex.ru считается.
</font>

Снова ключевые слова пропадают? По идее, я это уже исправил. Только что добавил NL и Punto.

А что с Яндексом? У меня была недоработка, по которой при заходе в статистику по серверам в Яндекс показывалась статистика и за yandex.ru, и за www.yandex.ru, это?

Всего: 847