iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

<font face="Verdana" size="2">Originally posted by Dim:
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?</font>

Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.

<font face="Verdana" size="2">2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются? </font>

Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).

Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.

Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым

<font face="Verdana" size="2">3) Как организован пословный индекс для незнакомых слов.</font>

Также как и для словарных. Этим яндекс отличается от других искалок.

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by Dim:
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?</font>

Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.

<font face="Verdana" size="2">2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются? </font>

Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).

Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.

Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым

<font face="Verdana" size="2">3) Как организован пословный индекс для незнакомых слов.</font>

Также как и для словарных. Этим яндекс отличается от других искалок.

Илья Сегалович,

Яндекс

Честное слово, хочется видеть такие вопросы на форуме яндекса. Извините, что не всегда есть время и место подробно и оперативно отвечать, но мы стараемся.

Если можно, Александр, пошлите туда это письмо и прибавьте URL-ы о которых идет речь.

У меня появится формальный повод разобраться в деталях.

<font face="Verdana" size="2">Originally posted by funsad:
Было. Страница нормально проиндексировалась, около суток была в результатах, а затем совсем исчезла из поиска, включая даже поиск по #url. Причем при попытке добавить повторно Яндекс сообщал, что уже знает эту страницу и в ближайшее время ее проиндексирует. Возникает вопрос: что же он делал с ней первый раз?
</font>

Страница попала в базу "быстрого добавления" и в очередь на помещение в "большую базу".

Очень маловероятно, но возможно, что по одной из трех вышеуказанных причин (см выше) за очередной временной интервал (2-3 дня) она не успела попасть вовремя в большую базу.

Самая же распространенные причины, в реальности - ошибка 404 (от Вашшего сервера), или сбой в DNS, или Ваш сервер говорит что это не HTML, или еще десяток подобных.

<font face="Verdana" size="2">
А была и другая ситуация. Страница попала в базу, нормально находилась по 2-3 запросам (довольно редким). Но затем внезапно по одному из запросов исчезла из результатов поиска -- я не поленился и вечером просмотрел все 25 страниц результатов -- нет ее.
</font>

А повторить запрос не пробовали? Сечас база разлита на полтора десятка компьютеров - может быть, как раз сервер с этой страничкой

отвалился и его долго поднимали по какой-нибудь причине.

Это бывает, крайне редко, но все-таки бывает.

<font face="Verdana" size="2">
Илья, скажите, пожалуйста, как можно понять этот факт?
  • Если бы Яндекс счел страницу спамом и удалил, он не выдавал бы ее по запросу и в течение суток после индексации. (По крайней мере, Вы когда-то упоминали, что Яндекс индексирует страницу сразу, значит предположение о "более тщательной" индексации тоже не годится.)
  • Если бы страницу сочла спамом администрация, страница бы не показывалась по остальным запросам.
  • Технические проблемы также маловероятны, так как результат запроса был устойчивый, а страница была точно проиндексирована.

</font>

Повторюсь - конкретный URL - конкретный ответ.

<font face="Verdana" size="2">Единственное предположение -- у Яндекса спамовый фильтр иногда действует выборочно по запросам, не удаляя страницу в целом, но исключая ее из результатов поиска (как стоп-слово) при определенных запросах.

С уважением,
Александр Садовский.
</font>

Это верно, спамовый фильтр, у нас пока не очень эффективный. Но такие мудрые вещи он не делает. И видимо никогда не будет.

С уважением,

Илья Сегалович,

Яндекс.

D - "быстрое" добавление и проверка

I - индексатор

M - подсветчик

Вообще-то на такие вопросы лучше отвечать на форуме Яндекса. Да и задавать их тоже

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by iseg:
На рынке мировом рынке ISP поисков </font>

ISP - Internet Service Provider.

Правильнее, конечно, ASP - Application Service Provider.

Вот видите - проруха на старухе

Илья

<font face="Verdana" size="2">Originally posted by funsad:
Илья, объясните, пожалуйста, что Вы подразумеваете под внешним ISP-поиском?
</font>

На рынке мировом рынке ISP поисков сейчас три

игрока - Инктоми, Гугль, Фаст. Была еще и Альтависта, да сплыла. Теперь небось жалеет.

Лайкос, поняв, что отстроить новый поиск не сможет, или подсчитав что это слишком дорого (имеется в виду современный мировой поиск класса новых пол-миллиардников) перешел на Фаст, еще прошлой весной, кажется.

Предусмотрительно он с ним сильно задружился (ftp, mp3), а недавно еще и проинвестировал.

При этом ему, конечно, пришлось свой поиск выкинуть. Увы . Это был первый сигнал Инфосику. Но они не вняли. Можно жить с индексом в 35 миллионов на фоне двух 100-миллионников. Нельзя жить с таким индексом на фоне 5 пол-миллиардников.

Вообще я пишу статью на тему мировых искалок их истории, тенденций, сравнения - уже давно с ноября - если допишу, мне понадобится хороший профессиональный редактор - не возьметесь помочь? На предмет очистки от вранья.

Илья Сегалович,

Яндекс

Этого следовало ожидать:

- продажа поисковой команды конкуренту

- крохотный и не растущий индекс

- не-переход на внешний ISP-поиск

- порнушный скандал в руководстве

- сознательное убийство бренда

- заявления Диснея о убыточности

- заявления Диснея о неудавшейся

попытке уйти от поиска

Вместе с тем масса вопросов остается.

Куда денутся их 15 миллионов ежемесячных пользователей?

Как известно, яндекс раз в два-три дня выкладывает новый большой индекс

Файлы, добавленные через addurl, могут при этом удаляться по нескольким причинам:

1. Сработал автоматический (анти-спамовый, анти-мусорный, анти-нечеткозеркальный) скрипт

2. Сайт вручную запрещен к индексированию

за спам администрацией

3. Различные технологические проблемы - временная нехватка места на диске для файлового кэша, сбои или задержки в процессе индексирования, в том числе связаные с профилактичекими процедурами

Илья Сегалович,

Яндекс

<font face="Verdana" size="2">Originally posted by katya:
А то, что при чем тут эта yaca cо значениями 0,1...???</font>

Привет.

yaca=1 это параметр для совместимости.

Если он задан - используется каталог List.ru

Скоро прибьем. Если уже не прибили.

Илья Сегалович

Яндекс

Я извиняюсь, я тут в ответе немного намешал разных высказывания Игоря по поводу Спайлога, Рамблера, Яндекса и нашего индекса цитирования. Уж больно хочется прокомментировать.

<font face="Verdana" size="2">Originally posted 25-12-2000 23:30 by Ashmanov:
Популярность у Рамблера выше просто по числу запросов, сейчас до 500-700 тыс., в полтора раза больше, чем в Яндексе.
</font>

<font face="Verdana" size="2">Originally 26-01-2001 09:12 by Ashmanov:
Я в прошлый раз говорил о количестве поисковых запросов к поисковику. Их у Рамблера больше раза в полтора, как и вообще посетителей на портале.</font>

Игорь, нельзя ли уточнить, 500 или 700 тысяч запросов у вас было в декабре? Если это конечно не коммерческая тайна.

Яндекс 23 января выполнил 699802 поисковых запроса. Можно ли говорить, что это 600-800 тысяч в день?

<font face="Verdana" size="2">Originally posted 25-12-2000 23:46 by Ashmanov:
Но вообще может быть много причин в силу того, что ребятам из Яндекса могут быть известны недокум. "фичи" Спайлога. Я уверен, что Аркадий Волож имеет какой-то интерес в Спайлоге, чего он фактически не отрицал при прямых вопросах.
</font>


<font face="Verdana" size="2">Originally 26-01-2001 09:12 by Ashmanov:
Цифры ведь у вас из Спайлога, не так ли? А Спайлог как-то пользуется индексом цитируемости Яндекса. Аудитории Спайлога и Яндекса по этой (или другой причине) довольно сильно пересекаются.
</font>


Эти намеки на какую-то нашу чуть ли не родственную связь нас со спайлогом выглядят довольно странно. О каком "интересе" Аркадия идет речь? Да, мы передаем им наш индекс цитирования. Причем тут аудитория?

<font face="Verdana" size="2">Originally posted 23-11-2000 3:41 by Ashmanov:
Что до Индекса цитирования - это довольно странная идея Яндекса, требующая расстановки специальных счётчиков, вряд ли мы ею воспользуемся.</font>


Индекс цитирования Яндекса никак не связан с установкой "денежек". Ну просто даже близко не лежал. Индекс цитирования - это число "ресурсов" ссылающихся на данный "ресурс". По данным нашего робота. Точка.

Илья Сегалович,
Яндекс

Всего: 442