Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.
Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).
Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.
Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым
Также как и для словарных. Этим яндекс отличается от других искалок.
Илья Сегалович,
Яндекс
Честное слово, хочется видеть такие вопросы на форуме яндекса. Извините, что не всегда есть время и место подробно и оперативно отвечать, но мы стараемся.
Если можно, Александр, пошлите туда это письмо и прибавьте URL-ы о которых идет речь.
У меня появится формальный повод разобраться в деталях.
Страница попала в базу "быстрого добавления" и в очередь на помещение в "большую базу".
Очень маловероятно, но возможно, что по одной из трех вышеуказанных причин (см выше) за очередной временной интервал (2-3 дня) она не успела попасть вовремя в большую базу.
Самая же распространенные причины, в реальности - ошибка 404 (от Вашшего сервера), или сбой в DNS, или Ваш сервер говорит что это не HTML, или еще десяток подобных.
А повторить запрос не пробовали? Сечас база разлита на полтора десятка компьютеров - может быть, как раз сервер с этой страничкой
отвалился и его долго поднимали по какой-нибудь причине.
Это бывает, крайне редко, но все-таки бывает.
Повторюсь - конкретный URL - конкретный ответ.
Это верно, спамовый фильтр, у нас пока не очень эффективный. Но такие мудрые вещи он не делает. И видимо никогда не будет.
С уважением,
Яндекс.
D - "быстрое" добавление и проверка
I - индексатор
M - подсветчик
Вообще-то на такие вопросы лучше отвечать на форуме Яндекса. Да и задавать их тоже
ISP - Internet Service Provider.
Правильнее, конечно, ASP - Application Service Provider.
Вот видите - проруха на старухе
Илья
На рынке мировом рынке ISP поисков сейчас три
игрока - Инктоми, Гугль, Фаст. Была еще и Альтависта, да сплыла. Теперь небось жалеет.
Лайкос, поняв, что отстроить новый поиск не сможет, или подсчитав что это слишком дорого (имеется в виду современный мировой поиск класса новых пол-миллиардников) перешел на Фаст, еще прошлой весной, кажется.
Предусмотрительно он с ним сильно задружился (ftp, mp3), а недавно еще и проинвестировал.
При этом ему, конечно, пришлось свой поиск выкинуть. Увы . Это был первый сигнал Инфосику. Но они не вняли. Можно жить с индексом в 35 миллионов на фоне двух 100-миллионников. Нельзя жить с таким индексом на фоне 5 пол-миллиардников.
Вообще я пишу статью на тему мировых искалок их истории, тенденций, сравнения - уже давно с ноября - если допишу, мне понадобится хороший профессиональный редактор - не возьметесь помочь? На предмет очистки от вранья.
Этого следовало ожидать:
- продажа поисковой команды конкуренту
- крохотный и не растущий индекс
- не-переход на внешний ISP-поиск
- порнушный скандал в руководстве
- сознательное убийство бренда
- заявления Диснея о убыточности
- заявления Диснея о неудавшейся
попытке уйти от поиска
Вместе с тем масса вопросов остается.
Куда денутся их 15 миллионов ежемесячных пользователей?
Как известно, яндекс раз в два-три дня выкладывает новый большой индекс
Файлы, добавленные через addurl, могут при этом удаляться по нескольким причинам:
1. Сработал автоматический (анти-спамовый, анти-мусорный, анти-нечеткозеркальный) скрипт
2. Сайт вручную запрещен к индексированию
за спам администрацией
3. Различные технологические проблемы - временная нехватка места на диске для файлового кэша, сбои или задержки в процессе индексирования, в том числе связаные с профилактичекими процедурами
Привет.
yaca=1 это параметр для совместимости.
Если он задан - используется каталог List.ru
Скоро прибьем. Если уже не прибили.
Илья Сегалович
Я извиняюсь, я тут в ответе немного намешал разных высказывания Игоря по поводу Спайлога, Рамблера, Яндекса и нашего индекса цитирования. Уж больно хочется прокомментировать.
Игорь, нельзя ли уточнить, 500 или 700 тысяч запросов у вас было в декабре? Если это конечно не коммерческая тайна.
Яндекс 23 января выполнил 699802 поисковых запроса. Можно ли говорить, что это 600-800 тысяч в день? <font face="Verdana" size="2">Originally posted 25-12-2000 23:46 by Ashmanov: Но вообще может быть много причин в силу того, что ребятам из Яндекса могут быть известны недокум. "фичи" Спайлога. Я уверен, что Аркадий Волож имеет какой-то интерес в Спайлоге, чего он фактически не отрицал при прямых вопросах.</font> <font face="Verdana" size="2">Originally 26-01-2001 09:12 by Ashmanov:Цифры ведь у вас из Спайлога, не так ли? А Спайлог как-то пользуется индексом цитируемости Яндекса. Аудитории Спайлога и Яндекса по этой (или другой причине) довольно сильно пересекаются.</font>Эти намеки на какую-то нашу чуть ли не родственную связь нас со спайлогом выглядят довольно странно. О каком "интересе" Аркадия идет речь? Да, мы передаем им наш индекс цитирования. Причем тут аудитория? <font face="Verdana" size="2">Originally posted 23-11-2000 3:41 by Ashmanov:Что до Индекса цитирования - это довольно странная идея Яндекса, требующая расстановки специальных счётчиков, вряд ли мы ею воспользуемся.</font>Индекс цитирования Яндекса никак не связан с установкой "денежек". Ну просто даже близко не лежал. Индекс цитирования - это число "ресурсов" ссылающихся на данный "ресурс". По данным нашего робота. Точка. Илья Сегалович,Яндекс