Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by Professor:
+ Такой сервис был на сервере Библиотеки интернет рекламы, есть украинский анлизатор ...</font>

Не понял. Что за украинский анализатор, "Professor"?

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Не так давно столкнулся с интересным роботом - компании IBM. В User-Agent у него выставлена страница:
http://www.almaden.ibm.com/cs/crawler
Здесь они кратко описывают свои цели:
The information we collect from the web is currently being used in IBM's
Research Division for several search/indexing projects.

Похоже, они тоже хотят попасть на этот рынок. Кто-нибудь об этом что-то знает?
</font>

Ну вот уже нашел, чем они занимаются: "Умная поисковая машина"(CLEVER search engine):


Enhancements to HITS algorithm. A number of algorithmic methods to improve the precision and functionality of the basic HITS algorithm. There are several such related efforts, in Almaden and elsewhere (see for instance our SIGIR98 Workshop paper).

Hypertext Classification. Classifying hypertext into a hierarchical topic taxonomy: using a hyperlink induced feature set to significantly improve classification accuracy (see the VLDB Journal paper).

Focused Crawling. Using Hypertext classification and topic distillation tools to focus a crawler to work within a specific topic domain, ignoring unrelated and irrelevant material. (see the WWW8 paper.)

Mining Communities. The web is home to more than 100,000 communities: groups of people and web pages created and maintained by them based on a shared interest on a particular topic. Finding and organizing them within an organized informational framework presents significant technical challenges. (See the WWW8 paper.)

Modeling the web as a graph. What is a good stochastic model for the web as a graph? An answer to this question would give us ways of predicting the growth and interconnection structure of the web, and allow us to tune efficient algorithms for the web. (See the VLDB 99 paper.)

Звучит совсем неплохо. Если это удастся воплотить в жизнь.

http://www.almaden.ibm.com/cs/k53/clever.html

Итак, новое лицензионное соглашение Яндекса. Полный текст на:
http://www.yandex.ru/info/termsofuse.html?109

1. Копирайт

1.1 Поисковая система Яндекс, торговый знак Яндекс защищены российскими и международными законами об охране интеллектуальной собственности. Эта защита относится к алгоритмам и программам, оформлению и структуре страниц сайта, содержимому базы данных Яндекса.

2. Использование

2.1 Поисковая машина Яндекс предназначена только для личного некоммерческого использования.

2.2 Вы не имеете права на своем сайте модифицировать, переформатировать, копировать, транслировать, рассылать, публиковать результаты поиска или содержимое сайта Яндекс, а также создавать на основе Яндекса производные произведения. В частности, запрещено включать страницы Яндекса во фреймы, или иные страницы, открывающиеся автоматически в окнах браузера; создавать зеркала Яндекса; использовать Яндекс в т.н. "мета-поиске".

Вы имеете право при желании разместить на своем личном или корпоративном сайте поисковую форму для передачи поисковых запросов в Яндекс.

2.3 Если вы используете поисковую машину Яндекс в коммерческих целях для оказания услуг по поиску и/или навигации по Сети, вы должны уведомить об этом вашего клиента и предоставить ему ссылку на Яндекс (www.yandex.ru).

2.4 Вы не имеете права делать автоматические запросы в Яндекс иначе как с предварительного согласия Яндекса. Обратите внимание, что под понятие "автоматические запросы" подпадают все программы, посылающие запросы в поисковую машину для выяснения, на какой позиции в результатах поиска оказывается данный веб-сайт по разным запросам.

Для автоматического запрашивания Яндекса в научных некоммерческих целях вы должны предварительно уведомить Яндекс, кратко описав цели, методы и возможные IP адреса вашего автомата.

2.5 Яндекс оставляет за собой право не обслуживать запросы от любых людей, сайтов и программ, нарушающих данную Лицензию.

2.6 Если вы хотите использовать поиск Яндекса для целей, не разрешенных данной лицензией, вы должны получить на это согласие Яндекса. Для дополнительной информации свяжитесь с нами

[This message has been edited by Vyacheslav Tikhonov (edited 20-09-2001).]

<font face="Verdana" size="2">Originally posted by ewspam:
Согласен, но при условии что данная проблема существует, неплохо было бы написать какие нибудь правила.
Например:

мы не любим мета поисковики и путь таким к нам заказан

или

мы очень любим мета поисковики, но любим не бесплатно

а вот наверное фантастический вариант

мы любим их просто так

</font>

ewspam, это их поисковая система и они имеют право так поступать. Так что в подобных топиках мало смысла.

Письмо Дмитрию Тейблюму:

Автор: Дмитрий Тейблюм

Здравствуйте, Дмитрий!


Действительно, 14 сентября был закрыт доступ какому-то невоспитанному роботу. Этот робот задавал существенное количество запросов, нарушающих абсолютно четко написанные запреты в файле robots.txt. Файлы robots.txt на наших серверах предназначены не для красоты, как Вы, вероятно, подумали. Они содержат пожелания, обязательные для всех роботов.

Естественно, я не мог не знать о содержимом robots.txt, находящемся на Вашем сервере. Однако, в Стандарте исключений для роботов (Standard for robot exclusion) имеются следующие строки:

It is not an official standard backed by a standards body, or owned by any commercial organisation. It is not enforced by anybody, and there no guarantee that all current and future robots will use it. Consider it a common facility the majority of robot authors offer the WWW community to protect WWW server against unwanted accesses by their robots.

Согласно тому, что здесь написано, данный стандарт вовсе не является обязательным, а скорее рекомендуемым для роботов.

Я не видел никаких официальных просьб сделать исключение для роботов компании TopPing. Если Вам это интересно, обращайтесь по адресу webadmin@yandex.ru, указанному на всех страницах нашего сайта.

Поэтому как такового нарушения здесь я не видел и именно по этой причине до сих пор в Яндекс не поступало никаких официальных просьб сделать исключение для роботов TopPing, иначе они непременно поступили бы. Так как сейчас наши сервера полностью отрезаны от Яндекса, возникает вопрос, какие условия необходимо выполнить, чтобы снять этот запрет?

Дмитрий Тейблюм Яндекс

С уважением, Вячеслав Тихонов

Компания TopPing

mailto: tikhonov@topping.com.ua

<font face="Verdana" size="2">Originally posted by funsad:
Думаю, жизнь гораздо прозаичней. Когда я тестировал анализатор, я задал около 10 запросов. Учитывая, что по умолчанию стояло 50 проверяемых позиций, то TopPing загрузил пять страниц (если считать, что во всех случаях мой URL не находился в top-50), в то время как средний пользователь просматривает чуть больше 2 страниц. Следовательно, я через TopPing создал нагрузку на Яндекс, эквивалентную 25 обычным пользователям.
</font>

Александр, большое спасибо за одну из версий, но давайте глянем реальную статистику посещаемости анализатора за текущий месяц. На данный момент в среднем это 145 хитов в день и при этом пользователи далеко не всегда выбирают Яндекс, а во многих случаях ищут по определенному региону, скажем по Украине или всему миру. Даже если воспользоваться предложенной арифметикой, выходит 362 "условных пользователя" в день для Яндекса. Даже если эта цифра в два раза больше, это будет составлять 0,12% нагрузки Яндекса. Поэтому я думаю, что данная версия очень маловероятна.

<font face="Verdana" size="2">Originally posted by Gray:
Э-э-э, господа украинские вебмастера, а этот сайт вы куда занесете? Сервер в Америке, домен русский, автор - гражданин Украины. Один из модераторов - тоже.
Просто интересно - это Рунет или UAnet?
</font>

Нет, Gray, согласно тематике сайта не годится он просто как рунетовский или уанетовский. Размах здесь не тот

<font face="Verdana" size="2">Originally posted by spark:
"Маленький" нюансик. По их данным половина из них посещается реже 1 раза в неделю
И из Израиля к нам никто не ходит
</font>

Да, это примерно так и есть. Надо сказать, сайтов, несущих полезную нагрузку, в УАнете всего-то штук 500, а остальные, как правило, просто берут информацию у российских. Ну и посещаемость соответствующая. Здесь главное не сайт, а факт его наличия

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Огромное спасибо, Александр, за объективную оценку движка. Уже сейчас представляю, в чем его слабость. Я, в общем-то, и не ожидал от программы, собранной за 2 дня, слишком выдающихся результатов.
Будем работать дальше.
</font>

Я существенно доработал алгоритм ранжирования, так что релевантность поиска повысилась и уже не столь отличается от метаботовского. Кроме этого, добавил достаточно удобную группировку по поисковым машинам, подсветку всех найденных слов.

Заработал домен http://www.metaping.com ,

открылась английская версия (здесь добавлена куча наиболее крупных поисковиков, которые не понимают русский).

Практически готов FTP-метапоиск (завтра уже выложу линк), ребят из метабота он, по-видимому немного удивит

<font face="Verdana" size="2">Originally posted by spark:
А как вы относитесь к тому, что Спайлог открыл украинский филиал? Это конечно, офтопик здесь, но все же. Был на первом вторнике, они откуда-то насчитали 12000 украинских ресурсов. А мы традиционно на вашу стаистику ориентируемся, как более мрачную </font>

Вообще-то, счетчик и рейтинг не в ходят в круг моих обязанностей Но думаю, после того, как Спайлог начал попытки извлекать коммерческую выгоду из своих разработок, позиции Пинга могут только усилиться. Кстати, после индексации я тоже насчитал около 10 тысяч ресурсов в зоне .ua.

Всего: 847