Не понял. Что за украинский анализатор, "Professor"?
Ну вот уже нашел, чем они занимаются: "Умная поисковая машина"(CLEVER search engine):
Enhancements to HITS algorithm. A number of algorithmic methods to improve the precision and functionality of the basic HITS algorithm. There are several such related efforts, in Almaden and elsewhere (see for instance our SIGIR98 Workshop paper). Hypertext Classification. Classifying hypertext into a hierarchical topic taxonomy: using a hyperlink induced feature set to significantly improve classification accuracy (see the VLDB Journal paper). Focused Crawling. Using Hypertext classification and topic distillation tools to focus a crawler to work within a specific topic domain, ignoring unrelated and irrelevant material. (see the WWW8 paper.) Mining Communities. The web is home to more than 100,000 communities: groups of people and web pages created and maintained by them based on a shared interest on a particular topic. Finding and organizing them within an organized informational framework presents significant technical challenges. (See the WWW8 paper.) Modeling the web as a graph. What is a good stochastic model for the web as a graph? An answer to this question would give us ways of predicting the growth and interconnection structure of the web, and allow us to tune efficient algorithms for the web. (See the VLDB 99 paper.)
Звучит совсем неплохо. Если это удастся воплотить в жизнь.
http://www.almaden.ibm.com/cs/k53/clever.html
Итак, новое лицензионное соглашение Яндекса. Полный текст на:http://www.yandex.ru/info/termsofuse.html?109
1. Копирайт
1.1 Поисковая система Яндекс, торговый знак Яндекс защищены российскими и международными законами об охране интеллектуальной собственности. Эта защита относится к алгоритмам и программам, оформлению и структуре страниц сайта, содержимому базы данных Яндекса.
2. Использование
2.1 Поисковая машина Яндекс предназначена только для личного некоммерческого использования.
2.2 Вы не имеете права на своем сайте модифицировать, переформатировать, копировать, транслировать, рассылать, публиковать результаты поиска или содержимое сайта Яндекс, а также создавать на основе Яндекса производные произведения. В частности, запрещено включать страницы Яндекса во фреймы, или иные страницы, открывающиеся автоматически в окнах браузера; создавать зеркала Яндекса; использовать Яндекс в т.н. "мета-поиске".
Вы имеете право при желании разместить на своем личном или корпоративном сайте поисковую форму для передачи поисковых запросов в Яндекс.
2.3 Если вы используете поисковую машину Яндекс в коммерческих целях для оказания услуг по поиску и/или навигации по Сети, вы должны уведомить об этом вашего клиента и предоставить ему ссылку на Яндекс (www.yandex.ru).
2.4 Вы не имеете права делать автоматические запросы в Яндекс иначе как с предварительного согласия Яндекса. Обратите внимание, что под понятие "автоматические запросы" подпадают все программы, посылающие запросы в поисковую машину для выяснения, на какой позиции в результатах поиска оказывается данный веб-сайт по разным запросам.
Для автоматического запрашивания Яндекса в научных некоммерческих целях вы должны предварительно уведомить Яндекс, кратко описав цели, методы и возможные IP адреса вашего автомата.
2.5 Яндекс оставляет за собой право не обслуживать запросы от любых людей, сайтов и программ, нарушающих данную Лицензию.
2.6 Если вы хотите использовать поиск Яндекса для целей, не разрешенных данной лицензией, вы должны получить на это согласие Яндекса. Для дополнительной информации свяжитесь с нами
[This message has been edited by Vyacheslav Tikhonov (edited 20-09-2001).]
ewspam, это их поисковая система и они имеют право так поступать. Так что в подобных топиках мало смысла.
Письмо Дмитрию Тейблюму:
Автор: Дмитрий Тейблюм
Здравствуйте, Дмитрий!
Действительно, 14 сентября был закрыт доступ какому-то невоспитанному роботу. Этот робот задавал существенное количество запросов, нарушающих абсолютно четко написанные запреты в файле robots.txt. Файлы robots.txt на наших серверах предназначены не для красоты, как Вы, вероятно, подумали. Они содержат пожелания, обязательные для всех роботов.
Естественно, я не мог не знать о содержимом robots.txt, находящемся на Вашем сервере. Однако, в Стандарте исключений для роботов (Standard for robot exclusion) имеются следующие строки:
It is not an official standard backed by a standards body, or owned by any commercial organisation. It is not enforced by anybody, and there no guarantee that all current and future robots will use it. Consider it a common facility the majority of robot authors offer the WWW community to protect WWW server against unwanted accesses by their robots.
Согласно тому, что здесь написано, данный стандарт вовсе не является обязательным, а скорее рекомендуемым для роботов.
Я не видел никаких официальных просьб сделать исключение для роботов компании TopPing. Если Вам это интересно, обращайтесь по адресу webadmin@yandex.ru, указанному на всех страницах нашего сайта.
Поэтому как такового нарушения здесь я не видел и именно по этой причине до сих пор в Яндекс не поступало никаких официальных просьб сделать исключение для роботов TopPing, иначе они непременно поступили бы. Так как сейчас наши сервера полностью отрезаны от Яндекса, возникает вопрос, какие условия необходимо выполнить, чтобы снять этот запрет?
Дмитрий Тейблюм Яндекс
С уважением, Вячеслав Тихонов
Компания TopPing
mailto: tikhonov@topping.com.ua
Александр, большое спасибо за одну из версий, но давайте глянем реальную статистику посещаемости анализатора за текущий месяц. На данный момент в среднем это 145 хитов в день и при этом пользователи далеко не всегда выбирают Яндекс, а во многих случаях ищут по определенному региону, скажем по Украине или всему миру. Даже если воспользоваться предложенной арифметикой, выходит 362 "условных пользователя" в день для Яндекса. Даже если эта цифра в два раза больше, это будет составлять 0,12% нагрузки Яндекса. Поэтому я думаю, что данная версия очень маловероятна.
Нет, Gray, согласно тематике сайта не годится он просто как рунетовский или уанетовский. Размах здесь не тот
Да, это примерно так и есть. Надо сказать, сайтов, несущих полезную нагрузку, в УАнете всего-то штук 500, а остальные, как правило, просто берут информацию у российских. Ну и посещаемость соответствующая. Здесь главное не сайт, а факт его наличия
Я существенно доработал алгоритм ранжирования, так что релевантность поиска повысилась и уже не столь отличается от метаботовского. Кроме этого, добавил достаточно удобную группировку по поисковым машинам, подсветку всех найденных слов.
Заработал домен http://www.metaping.com ,
открылась английская версия (здесь добавлена куча наиболее крупных поисковиков, которые не понимают русский).
Практически готов FTP-метапоиск (завтра уже выложу линк), ребят из метабота он, по-видимому немного удивит
Вообще-то, счетчик и рейтинг не в ходят в круг моих обязанностей Но думаю, после того, как Спайлог начал попытки извлекать коммерческую выгоду из своих разработок, позиции Пинга могут только усилиться. Кстати, после индексации я тоже насчитал около 10 тысяч ресурсов в зоне .ua.