Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Привет, Илья!

Технического затыка, в общем, не было. Проблемы были исключительно политические. То, что подход работает, было доказано. Может, начнём снова. Вот денег заработаем...

Мы эту штуку разрабатывали девять месяцев, сначала один Коваленко, потом пятеро, потом довели рабочую группу до 12 человек. Весной 1999 она таки взлетела. На коротких и средних предложениях мы догнали ПроМТ и превзошли Сократ. На длинных иногда возникали сбои. Мы рассчитывали выйти на рынок осенью 1999. Таким образом теорема существования была доказана, и для 9 месяцев это очень неплохо.

Ребята из ПроМТа и Ареснала уже приезжали, присматривались насчёт купить движок.

Но в этот момент в компании уже начались политические сложности. Мой президент - главный соучредитель, фактический хозяин, устал ждать результатов (а срок проекта действительно был сорван месяца на три, мы пообещали слишком оптимистично), начал наскоро придумывать новые виды бизнеса, в общем началась этакая административная лихорадка.

Проект был закрыт волевым решением, и это была одна из основных причин, почему вся команда зимой 2000 ушла - энтузиазм был очень высокий, штука начала летать, хотя и низко, и тут всё вдруг кончилось.

Параллельно мы, кстати, по заказу немецкого переводческого бюро делали систему ведения словарей и параллельных текстов, корпоративную систему для переводческих бюро - конкурент Традоса. Мы собирались обес системы объединить в сетевой сервис для переводчиков.

У немцев был готовый инвестор примерно на 2 М марок, нужно было только выпустить проект и показать, что как-то продаётся. До выпуска оставалось два месяца, опять-таки штука уже начала крутиться, немцы платили 10,000 в мес., и тут наш президент с ними поссорился. Просто разрушил доверие на переговорах из-за мелких придирок к партнёру. Они остановили платежи, а он велел остановить разработку. Я в этот момент уволился и ушёл в Рамблер. Проект также рухнул, пострадали все - и заказчик и МедиаЛингва.

Ну, его понять тоже можно - он нервничал, приходилось докладывать в кассу, компания была по-прежнему убыточна, хотя и он к этому руку крепко приложил. Тогда же, например, летом, им был закрыт и исправно продающийся словарь МультиЛекс, чтобы быть снова открытым через полгода.

Увы, технических проблем практически никогда не бывает, бывают административные и человеческие.

Кстати говоря, автор статьи в Компьютерре о будущем МП Алексей Сокирко был рядовым участником проекта МП в МедиаЛингве, но скоро покинул нас в середине пути. Это не тот человек, кого я бы стал в первую очередь спрашивать о путях развития технологий и уж точно не та кандидатура для заглавной статьи.

Евспам, а при чём здесь спам?

Про тему номера нужно внести ясность.

Тема номера - машинный перевод. Прошу обратить внимание на то, кто ведёт тему номера и кто пишет статьи в неё. Это недавние студенты и аспиранты, занимающие в проектах не верхние и даже не средние позиции.

Рядовые или средние программисты с лингвистическим уклоном. Поэтому вся тема - в общем, пересказ идей двадцатилетней давности. Или вовсе басни.

А где же лидер рынка ПроМТ, где Сократ, то есть где в номере люди оттуда? Где люди с передовой? Новая (белоноговская) система Ретранс - где? Где люди из Традос?

Пересказ про давно уже виртуальный проект ЭТАП тоже вызвал грусть. Пересказ - на уровне студенческого реферата, а ведь могли бы и самих авторов попросить написать.

Россказни про ДИАЛИНГ - просто введение в заблуждение.

В общем, Компьютерра организовала тему просто непрофессионально. Ну что могут (сказать ни много ни мало!) про будущее машинного перевода люди, мало или ничего не сделавшие и мало кому известные. Каков вес этих слов? Позор редактора.

А вот Свету Соколову, Алексея Проничева, Юрия Дерениковича Апресяна я бы с удовольствием почитал бы.

Замечу, что модель самостоятельного сбора информации широкой публикой имеет серьёзный барьер: она работает, когда есть трафик и ставить себе "сборщик" становится интересно держателем сайтов - когда система за это платит трафиком. А пока нет трафика, сборщики не поставят, следовательно, ресурс сильно неполон, из-за этого трафика нет и так далее.

Своего рода трение покоя. Модель Нейрона (Андрей Иванов), когда от держателей сайтов требуется регистрировать запросы, имеет тот же замкнутый круг проблем - нет популярности, нет поступлений информации, и наоборот.

Модели же Рамблера/Яндекса/Гугла предполагают "бесплатный" сбор достаточно большой базы и бесплатную разработку достаточно полезного и привлекательного поисковика, а уж потом трафик, слава, заказы, деньги. То есть большие начальные инвестиции.

Я уж не говорю про вложения в раскрутку, брэндинг и прочее.

В начале интернет-бума проекты вроде Рамблера возрастали потихоньку, потому что были первыми и пользователям некуда было больше ходить, да и мало их было, а сейчас нужно их отвлечь от Я/Р/Г.

Возможно, у Крюкова смешанная модель - остались деньги от продажи Рамблера, они вкладываются, потихоньку стартуют, а там как вывезет.

Ну, посмотрим.

Эти подсчёты только выглядят убедительно. Гладко на бумаге.

Попробуйте построить большую поисковую машину, столкнётесь с теакими проблемами, что разговоры об аппаратном комплексе за 10 тысяч будут вызывать только сожаление.

Я строил, мне не понравилось. Спросите ещё Сегаловича, что он думает про дешёвые волшебные палочки.

Ну как вы думаете, авторы обсуждаемого документа прямо-таки сильно умнее Брина и Пэйджа? Эти двое всё же придумали новый способ ранжирования страниц и построили самую быструю поисковую машину в мире. Они действительно сильные ребята.

А вот Рамблер - довольно традиционная машина, и новая её инкарнация - в общем, тоже.

У Гугла используется 15 000 машин. Я, кстати, спросил Брина - они используют не старые, а новые машины - сами собирают из компонентов. В фирме работают 400 человек и требуются ещё разработчики.

Понимаете, что означает 400 человек? Даже при разработке в российских условиях это минимум 200-300 тыс. долл. в месяц на офис.

А стоимость аппаратной части со стойками, маршрутизаторами - минимум десяток миллионов. Не верю, что можно сильно дешевле.

Ну и где то волшебное средство, которое позволит ребятам из Стека делать то же самое за гроши?

Илья, я вот чего не понял: как всё-таки в Яндексе получается переход от "простоем" к "просто"?

Это ведь уникальная словоформа существительного "простой". Она вроде бы не должна выводить на краткую форму прилагательного, если вы различаете индентификаторы лексем сразу на индексации?

Не правы. Поправляю.

Вы ошибаетесь минимум на порядок, но скорее - на полтора. Ващши расчёты - это чистая фантастика.

а) Довольно простой RAID-массив с дисками на 50-100Гб стоил в 2001 году около $12,000 - 15,000.

б) Терабайтное хранилище достаточной надёжности обойдётся в многие десятки или первые сотни тысяч долларов.

г) Ваши подсчёты цены компьютеров касаются типовых PC, а не серверов. Таких цен на сервера не бывает. Самые дешёвые сервера стоят от 1000 - именно потому, что требуется "индустриальный корпус", как пишет Крюков, и прочие серверные особенности.

Ну и так далее.

Нужно вообще заметить, что описываемая архитектура системы принципиально не очень сильно отличается от яндексовской и рамблеровской, а значит, не может стоить в разы дешевле.

Принципиальное отличие архитектуры - у Гугла, где используется парк в 12-15 тыс. лёгких линуксовых машин, каждая из которых не важна и допускает горячую замену. На роль этих поисковых атомов покупаются списанные сервера разорившихся дот-комов Кремниевой долины, по 100-200 долл. Как только сбойнул - выдирают из стойки и выбрасывают.

Но и в этом случае, как легко подсчитать, серверная ферма Гугла стоит минимум несколько миллионов, не считая стоимости размещения, стоек и ТРАФИКА. При этом Гугл получил 40 миллионов инвестиций в начале и только сейчас выходит на самоокупаемость с помощью нового директора Эрика Шмидта и в основном за счёт продажи технологий.

Прошу прощения, я оговорился. Хотел сказать "словарь омонимов".

Вот смотрите, что я имею в виду.

Вы вводите запрос "дело". Допустим, поисковик вас переспрашивает:

Вы имеете в виду существительное "дело" или глагол "деть"?

Классно, да? Это ведь какой интеллектище! Немного искусственный, правда.

Теперь Вы выбираете "дело" и запускаете поиск.

Таким образом, вам обещано теперь различить два данных слова при поиске в текстах.

Но есть обещание, а есть реальная ситуация в текстах. Там есть три вида словоформ:

1) уникальные для "дело" (делу, делом, деле, делам, делами...)

2) омонимичные (дело, дела, дел)

3) уникальные для "деть" (дену, денешь, денет, день...).

На самом деле интеллектуальный поисковик дал вам невыполнимое обещание: различить в ТЕКСТЕ он может только словоформы вида 1) и 3).

А все словоформы вида 2) так и пойдут в результаты поиска. Действительно, как различить омонимы во фразах "У меня много дел", "Он много денег неизвестно куда дел", "А сколько дел?" Я бы не взялся. Особенно в последней фразе - там и человек не отличит, если не слышал предыдущего высказывания.

Сделаешь слишком жёсткий алгоритм - потеряешь вхождения, мягкий - оставишь шум.

То есть в действительности обещание будет выполнено не полностью.

Но интересно, что часто индексация у поисковиков вообще для простоты устроена так: при индексации нашли слово "делами". Слазили в морфологический словарь. Получили его нормальную форму "дело". А потом ссылки на ВСЕ её омонимы положили в базу. И получили, что "делами" - форма слова "деть"! В этой ситуации неразличимы и формы типов 1 и 3. Фактически, объявлены эквивалентными все словоформы обоих слов, то есть их парадигмы объединены.

Дальше эта дурная транзитивность начинает зацеплять третьи слова, которые совпадают уже с глаголом "деть" в одной-единственной форме.

В результате оказывается, что "дело" имеет форму "день"!

Конечно, в Яндексе сделано не совсем уж так просто. Проблемы начинаются, если задать в запросе омонимичную форму. Если же войти с уникальной словоформой, ситуация будет получше.

Для примера см. пятую ссылку в Яндексе при запросе "дело":

http://ya.ru/yandsearch?text=%E4%E5%EB%EE

Если же войти с запросом "делами" (уникальная форма), вхождения слова "день" уже не получим.

Но вот пример другого рода:

http://ya.ru/yandsearch?text=%EF%F0%EE%F1%F2%EE%E5%EC&rpt=rad

Спрашиваем "простоем", находит все вхождения слова "просто". Казалось бы, какая связь? А дело в том, что фактически объединились парадигмы существительного "простой" и прилагательного" простой", а у последнего есть краткая форма "просто".

Это действительно яркий пример объединения парадигм.

Предлагаю самостоятельно поэкспериментировать с формами глагола "простоять" - тоже жертвы индексной "транзитивности".

Правда, переход от "простоишь" к "просто" совершить уже не удастся.

Интересно, что в Яндексе на все эти ествественные сложности накладывается ещё и построение гипотез о склонении неизвестных слов, и в результате получается совсем уже кучеряво:

http://ya.ru/yandsearch?text=%E4%E5%ED%E8&rpt=rad

Спрашиваю название стирального порошка "Дени" (http://www.sang.spb.ru/site/products/sms/deny.htm), получаю вхождения "дни", "дня", и т.п.

Словарей, конечно нету. Но рабочий словарь антонимов легко составить автоматически - на лету, а в качестве толкования можно давать "различающую" словоформу.

Но это - на этапе запроса. А на этапе индексирования всё очень непросто, как я уже говорил.

во-первых, "электронная почта" - устойчивое словосочетание, а во-вторых в русском языке после прилагательного ни глагол ни наречие идти не могут без знаков припенания между ними.

Заметим, что Вы как раз ни одного знака не поставили.

По существу замечания: в русском языке - как раз могут сколько угодно, например "давший выпить мне", "красный встает закат", "электронную почту в нём доблесть". В русском языке можно очень многое - к cчастью для говорящих и к несчастью разработчиков.

Интересно, что вообще не получается работать с русским языком, исходя из набора правил, описывающих правильные фразы. Предположение о том, что сбой проверки правильности фразы может указывать на ошибку - неверно, так что в грамматическом корректоре ОРФО в составе Microsoft Office мне пришлось применить специальные словари ошибок!

Ну, а сколько-нибудь полных словарей устойчивых словосочетаний вообще не существует. Их слишком много - десятки миллионов.

Вообще они над этим работают уже лет десять, как и все, кто занимается прикладной лингвистикой.

Потому что главная проблема любых текстовых/речевых технологий - омонимия.

Разбор устойчивых и свободных словосочетаний мог бы помочь на этапе запроса, когда можно относительно просто грамматически разобрать запрос "электронную почту" и выбрать только один омоним - существительное. Однако, что делать, если введено одно слово "почтить"?

Тогда нужно работать с текстом документа, то есть на этапе построения индекса.

А снятие омонимии на этапе индексирования - пока задача не решённая человечеством.

Попробуйте-ка в уме или на бумаге разобрать основные случаи: введена омонимичная словоформа, а в тексте тоже омонимичная форма, введена омонимичная, а в тексте - "уникальная" (не имеющая омонимов), введена "уникальная", а в тексте омонимичная, введена уникальная, в тексте тоже уникальная словоформа. Что здесь правильно делать на этапах индексирования и поиска, в каком случае сводить лексемы, в каком различать и как?

Наложим теперь ещё измерение частая/редкая форма и получится уже довольно запутанная таблица вариантов.

Тут даже эта чёрно-белая логика задачи очень сложная, а уж вопросы производительности и полноты/точности вообще заводят ум за разум.

Ведь даже если поисковик разметит все устойчивые и/или грамматически согласованные словосочетания про почту, прочистит омонимы в терабайте русских текстов (что само по себе огромная инженерная задача), затем оставит только частые формы слов, все формы глагола "почтить" будут потеряны.А вдруг они кому нужны? Редко, но очень сильно?

А если не убирать омонимы, на "почту" полезет шум про почитание.

Единственная относительно легко реализуемая алгоритмически возможность - обрезать паразитную связь между формами "почти" и "почтой". То есть отменить "транзитивность" инцидентности лексем по их формам.

Но и для этого нужно менять логику индексирования. Не знаю, сделано ли уже это у Яндекса, а чтобы аккуратно проверить, нужно время.

Всего: 359