iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development

Присоединяюсь от всей души!

Успехов во всех делах!

Поздравляю!

По-моему это говорит только об одном. В Гугле работают симпатичные люди. Точка. (это вовсе не значит, что в Яндексе бяки собрались :))

Это действительно только для журналистов. Тем не менее, инцидент исчерпан, нас с Леной уже вовсю зовут.

Внимание, "не-журналистов" они не аккредитуют. Информация на сайте неверна (или неточна)

По крайней мере такова официальная причина отказа в аккредитации мне и Лене Колмановской.

Илья

Ваше сообщение переправлено на полагающийся для этого адрес: webadmin@yandex.ru :)

А вообще-то "рынок ванадия" находится прекрасно. И даже 15-я страница запроса

Илья

Игорь, а когда ты делал свою версию на translation memory, в чем был основной затык?

Первоначальное сообщение от Ashmanov
Единственная относительно легко реализуемая алгоритмически возможность - обрезать паразитную связь между формами "почти" и "почтой". То есть отменить "транзитивность" инцидентности лексем по их формам.
Но и для этого нужно менять логику индексирования. Не знаю, сделано ли уже это у Яндекса, а чтобы аккуратно проверить, нужно время.

Я имел в виду именно этот случай. Такой транзитивности у нас действительно нет и никогда не было.

почти: почти,почтить

почту: почта,почтить

почтой: почта

Таким образом, в Яндексе "почти" != "почтой"

Первоначальное сообщение от Ashmanov
Илья, я вот чего не понял: как всё-таки в Яндексе получается переход от "простоем" к "просто"? Это ведь уникальная словоформа существительного "простой". Она вроде бы не должна выводить на краткую форму прилагательного, если вы различаете индентификаторы лексем сразу на индексации?

А вот такая транзитивность, к сожалению, есть.

простоем: простой

просто: просто,простой

Как видите, "простоем" == "просто"

Этот конкретный случай на самом деле решаем, если класть еще и немного грамматической иноформации

простоем: простой+S

просто: просто+ADV,простой+ADJ

В этом случае получаем "простоем" != "просто"

Но при этом произойдет (1) потеря модульности ("абстрактный леммер" оперирует со строчками текста), (2) некоторая потеря эффективности за счет увеличения числа ключей, ну и не очень понятно, какой в результате выигрыш, кроме удовлетворения абстрактного любопытства лингвиста.

Первоначальное сообщение от AlexA
Илья, не уточните ли насчет "дисамбгиуатора": правильно ли я понял, что он работает с небольшим текстом и практически верно разделяет омонимы? Ведь кажется, что для верной работы статистического инструмента нужен довольно объемистый текст.

Он запускается на относительно больших текстах, надежно работает на "несловарных словах" (мы называем их "бастардами"), для которых яндекс генерирует заведомо изыбточное число возможных парадигм (то есть лемм), и снимает небольшой процент омонимов (из 15% омонимов по тексту всего убивается около 3-4). Его достоинства: простота в реализации, логичность, малый оверхед во времени при индексировании.

С уважением,

Илья

2gray: этот топик явно просится в другой тред форума. :)

"roland tr 626" google выдает все что надо

Мы же не ищем по всему миру. По такому запросу надо гугля с фастом или альтавистой сравнивать.

А если спросить по русски "роланд", то получше будет у Яндекса

(ВНИМАНИЕ: это была реклама :))

За кодировку спасибо!!

Илья

Ну и до кучи.

Скрипт, который рассылает письма об ответах в форуме.

Либо письма надо слать в KOI8-R (стандарт почтовых сообщений), либо, что даже более правильно, указывать в заголовке charset.

Content-Type: text/plain; charset="windows-1251"

С уважением,

Илья

Всего: 442