iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

На амазоне Information Retrieval стоил, по-моему, в пределах 75 долларов. Modern Information Retrieval тех же авторов - того же порядка. Обе книги рекомендую весьма.

Илья

<font face="Verdana" size="2">Originally posted by funsad:
Илья, Вы сильно преувеличиваете насчет уникальности форума "Где найти". (Для тех, кто не знает: http://forum.yandex.ru/?forum=167 .) Я сходу могу назвать:</font>

Потрясающий список! Где Вы его собрали?

Ничего из этого не знал. Зато платные службы (типа той, что на tela) замучили своими приглашениями.

Илья

Кстати, напрочь забыты два обстоятельства.

- Число дублей

- Число дохлых ссылок

Понятно ведь, что можно быть "страшно релевантным" но при этом (или из-за этого ) "страшно медленным".

Раз пошла такая пьянка, вот моя

упрощенная процедура:

Берем N запросов. Примерно одной тематики. Например геология или математика (можно перевести Гиля на русский )

Делаем их в режиме "по умолчанию" на всех серверах.

Первые десять линков копируем и отдаем товарищу вместе с текстом запроса, но без имени искалки, (при этом запомнив с какой искалки Вы их взяли)

Товарищ считает первую десятку по следующей процедуре.

- Устанавливает все счетчики в ноль

- Открывает каждый линк по очереди.

- Если не в тему (очевидным образом ),

инкрементирует счетчик "не по теме"

- Если этот (или "почти тот же")

документ уже был, инкрементирует

счетчик "дублей"

- Если не открылось,

инкрементирует счетчик "дохлых линков"

Все счетчики по результатам изучения осредняются для каждой искалки.

Таким образом искалка получает три оценки,

из которых можно при желании сварганить

интегральный показатель.

Илья Сегалович, Яндекс.

А как Вы проверяте?

Надо так: #url="ваш_урл"

По идее, если все добавилось (об этом сообщает добаляющий скрипт) в выдаче ваш документ должен быть уже через 15 минут.

Илья

Добрый вечер.

<font face="Verdana" size="2">Originally posted by AiK:
1. Прокомментируйте пожалуйста жизнь документа с момента первого посещения его роботом и до полной его индексации. Сложилось устойчивое мнение, что при первом заходе весовые коэффициенты у всех слов на странице одинаковы и поэтому документ появляется на первой странице практически по любому слову из текста, а уж тем более по любой паре слов.
[This message has been edited by AiK (edited 16-12-2000).]
</font>

При первом посещении документ полностью индексируется. Более выское ранжирование "новых" страниц в текущем поиске Яндекса действительно присутствует, но оно никак не связано с "весовыми коэффициентами слов" или чем-нибудь подобным.

Жизнь "нового документа" такова:

1. Мгновенная полная индексация и появление в поиске через 15 минут. Этим свойством Яндекса активно пользуются и пользовались многие новостные агентства (Максим Мошков из Ленту.Ру, например). Хотя теперь, после появления отдельной эффективно индексируемой секции новостей на выдаче, а также news.yandex.ru, это совершенно не требуется.

2. Передача роботу всего нового сайта, его раскрутка по ссылкам, и более полное индексирование происходит примерно в течении 1-2-х недель.

Заметьте, что повышенная активность в добавлении УРЛ одного сайта часто фиксируется и пресекается.

<font face="Verdana" size="2">Originally posted by AiK:
2. Чем объясняется то, что Яндекс индесирует вложенные комментарии и JavaScript? (Имеется ввиду &lt;!-- и --&gt; ) В частности индексируется код счётчика SpyLog (безусловно криво написанный, некоторые браузеры его не переваривают). Это один из способов спама Вашей системы.
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Это неправда. Комментарии и скрипты, так же как и стили, не индексируются последние полтора года. При чем тут "способ спама" я совершенно не понял.

<font face="Verdana" size="2">Originally posted by AiK:
3. По поводу индекса цитирования. Очень часто на первой странице результатов поиска присутствуют ссылки на каталоги счётчиков(List, SpyLog и др.) по-видимому из-за высокого ИЦ, но при этом на странице каталога интересная ссылка может находиться весма и весьма далеко от начала страницы и вообще быть нерелевантной. Я думаю имеет смысл поступать со страницами каталогов так же как и со страницами с других поисковиков (я ещё не разу не встречал ссылку на результаты запроса к поисковику, а вот ссылки на результаты поиска по некоторым каталогам доводилось видеть)
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Мы стараемся вычищать малосодержательные поисковые скрипты. Причем, в основном, полагаемся на "умную вычищалку", которую, так же как и "нечеткую сливалку почти зеркальных серверов", запустили летом этого года. Что касается каталогов, Вы правы, их в выдаче - некоторый перебор.

Индекс цитирования напрямую в релевантности страницы пока не участвует. Популярность документа по ссылкам (опосредованно, через лексику самих ссылок) мы сейчас доделываем.

<font face="Verdana" size="2">Originally posted by AiK:
И ещё очень хотелось бы узнать в каком направлении движется Яндекс? Что мы можем ожидать от поисковика в новом тысячелетии?
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Ох, как эпично! Аж в новом тысячелетии.

Не очень хочется рассказывать о не сделанном. А вдруг не сделаем

Как сделаем - так и расскажем.

Илья

<font face="Verdana" size="2">Originally posted by Gray:
Этот форум существует меньше 2 месяцев, но уже гораздо более информативен, ИМХО.</font>

Почитайте архив нашего форума, например, дискуссию с Максимом из "Кодекса" или с

Константином Кнопом. ИМХО, гораздо интересней, чем все Ваши дорвеи вкупе

с клоаками.

Илья Сегалович, Яндекс

<font face="Verdana" size="2">Originally posted by jorgen:
Хорошо, тогда объясни, друже, почему на Яндексе пресловутый www.realty.ru выскакивает при запросе "Квартиры Москвы", хотя там этих слов в принципе нет?</font>

Там, по сообщению Яндекса, не менее 5489 документов, содержащих в точности эту фразу.

Илья Сегалович, Яндекс.

<font face="Verdana" size="2">Originally posted by funsad:

А может, и не получили бы. Увы, из 28 вопросов, заданных за последние 30 дней, 12 еще без ответа (см. http://forum.yandex.ru/?forum=188 ). Причем на некоторые вопросы ожидать ответа приходилось почти три недели.

Я вовсе не ругаю Яндекс, потому что подобная инициатива у того же Апорта, едва родившись, сразу заглохла на корню. У Рамблера, за исключением личных усилий Игоря Ашманова (за что ему большое спасибо), я вообще не встречал попыток общения с пользователями. Так что Яндекс в этом направлении работает относительно неплохо. Но оперативность ответов и количество данных ответов пока еще далеки от идеала.</font>

Наш форум живет уже более 2-х лет. Число неотвеченных писем вы правы - великовато.

Дело в том, что на этом форуме отвечают разработчики. Когда большая загрузка - они (мы) не успеваем.

Зато рядом живет форум "где найти" и там десятки писем в день, причем все (или почти все) с ответами. Такая служба - совершенно точно - уникальная (есть аналоги но платные)

Илья Сегалович, Яndex

Да, и Yandex Support и dz действительно из Яндекса. Действительно какое-то время назад мы ответили отказом на участие в этом форуме. Тогда он, в основном, был посвящен способам заспаммить поисковики и повыгоднее продать свои умения в этой малоприятной для подавляющего большинства пользователей сфере деятельности.

Сечас на Ваш форму пришел Игорь Ашманов и тут завязалась какая-то разумная жизнь. Иногда звучат разные неверные утверждения насчет Яндкса. Поэтому волей неволей пришлось вступить в дискуссию.

Илья Сегалович, Яndex

Всего: 442