Материал достаточно интересен, хорошо структурирован и что весьма радует написан просто великолепно. Язык очень хорош.
Спасибо на добром слове. Это у меня язык хорош. Я некоторые доклады практически переписал. А некоторые - просто написал по презентациям докладчиков. В общем, положил две недели жизни на эти 200 страниц. Возращал авторам на доделку, переписывал и т.п. Всё равно там есть огрехи - нет в мире совершенства.
Кстати, я думаю, что покупатели сборника могут написать нам и попросить и стенограмму конференции. Еще 200 страниц с несколько другим контентом. Там язык не столь хорош, местами вообще так себе, но зато - живая речь, ответы на вопросы и пр.
Юлия, если нужно, давайте вышлем стенограмму. Если хотите - бросьте письмо, чтобы у меня был актуальный адрес. Только сейчас уже точно после праздников, числа 12-го.
Юлия, ещё раз приношу свои извинения. У нас были проблемы, связанные с проведением двух семинаров и наплывом клиентов. Миша Козлов оказался перегружен и ваше письмо пару раз потерял, а я вообще был в Ганновере и занимался антиспамом. Вряд ли Вас это утешит, но случай действительно единичный, ну, или один из немногих. А вообще мы и правда солидные. Документы сделаем.
Мы Вам дадим какую-нибудь скидку в будущем. Как нам загладить вину?
Счётчики гарантированно теряют 10-15% посещений и показов. Иногда больше. Это зависит от разных причин, но это реальность Интернета.
так что если есть анализатор логов, оно вернее будет.
Счётчик проще.
Кстати, если поставить на странице много счётчиков, каждый следующий (вниз от верхнего левого угла страницы) будет давать процентов на 3-5 меньше.
То есть сороковой счётчик не увидит почти никто.
www.rambler.ru/dict/scripts/go.cgi?query=snippet&where=enru&start=0&count=15
Есть три уровня тематической классификации:
а) составленный вручную иерархический (или, наоборот, плоский) рубрикатор тем + вручную занесённые в рубрики семантические образы (наборы терминов с весами). Работает очень хорошо, если лингвисты хорошие. Но много ручной работы.
По такому принципу, в частности, работает наш Спамтест(www.spamtest.ru).
Отдельные вопросы - позволяется ли терминам входить в несколько рубрик, есть ли разные типы терминов, как назначать веса и суммировать их при распознавании и так далее.
б) ручной рубрикатор, но автоматически составляемые семантические образы.
Образы составляются программой по обучающим выборкам документов, засунутым в рубрики вручную. Вся ручная работа сводится к разбрасыванию документов по рубрикам мышкой.
Здесь нужно уметь автоматически вычислять различительную силу терминов для рубрики(условно говоря, частотность термина в рубрике поделить на частотность его во всём множестве документов).
Это делают и Спамтест, и Классификатор от МедиаЛингвы (www.medialingua.ru).
в) казалось бы высший пилотаж - не только "автоматические" семантические образы, но и автоматическое построение самого рубрикатора. Даёте мешок с текстами, а машина сама его упорядочивает и дальше классифицирует и входной поток автоматически. Это звучит оглушительно красиво, но в целом ни у кого не работает.
Вы почему-то хотите взяться за эту самую сложную, и в общем, безнадёжную задачу, особенно в объёме диплома. Я вам с этим связываться категорически не советую. Мало того, что вообще таксономии, тезурусы и рубрикаторы - сами по себе самое интеллектуально сложное занятие, известное человечеству, но ещё и программно их строить - это просто дохлый номер.
Всякие слова про кластеризацию - туфта. То есть вообще идея, что вот взять "правильную" математику, а она потом сама всё сделает - это туфта.
Это тоже, кстати, как-то делает Классификатор от МедиаЛингвы. Потом можно доделать руками. Но труда вбито в эту "фичу" - просто ужас какой-то.
Уважаемый Незнайка!
Всё-таки вопросов многовато. Просто как в книжке Носова.
Неспроста никто не торопится отвечать. Время дорого, а тут вопросов на часы написания ответов.
А поисковиками не пробовали пользоваться? Архитектура и аппаратное обеспечение подробно описано и у Гугла, и у Яндекса, стоит только спросить у них самих.
Хочу добавить, что есть ещё наша поисковая машина - та, которая работает на FINDS.RU в качестве арендуемого поисковика для сайтов.
Её делал Алексей Иванов и ещё кое-кто.
Иванов - в недавнем прошлом руководитель поиска на Рамблере (2000-2001), а перед этим - технический директор МедиаЛингвы, где под его руководством делались МультиЛекс и Следопыт, а также выпущен Русский семантический сервер для Экскалибура.
Что касается спора о том, чья морфология лучше, то Кева здесь, скорее всего, прав в том смысле, что его лучше. Я с г-жой Жанной Аношкиной и её морфологией имел дело, но тогда это был типично академический продукт, годный только для теоретического рассказа на конференции Диалог и тому подобных. Насколько я помню, там была очень переусложнённая и трудная для программирования и ведения модель. Вообще видел многое, что делали по прикладной лингвистике в НИВЦе - ну да, для диссертаций или курсовых - нормально. А боевых продуктов, используемых массами людей - так и не появилось. А Кева выпускал проверку правописания в 1992 году, работавшую на реальных текстах, и с тех пор не переставал развивать.
Поэтому насчёт лучшего тезауруса в России - как-то я сомневаюсь. Впрочем, может быть, я ошибаюсь и за последние годы что-то изменилось.
Но это имеет не так много отношения к тому, какой поисковик выбрать. Морфология в поисковике - не определяющее звено, как Кева и Илья, конечно, знают. На данном форуме в соответствующих нитках можно найти много примеров ошибок и ложной омонимии в морфологии Яндекса, что, однако, не мешает ему искать и быть поисковиком номер 1 в России.
Но всё-таки нужно обратить внимание на то, что обсуждаются системы разного веса - Кевины продукты, произведение Ильи всё-таки используются массами людей. Остальное - пока не более, чем формальные упражения. Можно просто прикинуть, какого объёма тексты были пропущены через Кевин морфоанализатор и индексатор Ильи за последние три года хотя бы. И при чём здесь будет миллион документов? Это число просто близко к нулю.
Хочу добавить, что использование словаря синонимов и тезауруса при поиске ещё никому не помогало. Это странно и обидно, но это так. Идея вроде хорошая, интуитивная. Просто в реальной обработке текста интуиция часто противоречит жизни. Обработка текстов - штука странная, часто нелепая. В поиске зачастую и морфология мешает.
Вот Гугл принципиально не использует морфологию, ищет только в заданной форме - и ничего, нормально, занял место номер 1.
Про "правильно использовать" - извините, трудно поверить. Это звучит, как расхожая фраза. Да, вот у нас искусственный интеллект - у других не работает, а у нас работает, просто надо правильно использовать...
Я вот не видел ни разу, чтобы от синонимов релевантность повысилась. А шум увеличивается на порядок. Да, собственно, г-н Добров это косвенно признаёт - "возрастает полнота в 4 раза при сохранении релевантности".
Спросите Кеву и Илью - им надо повышать полноту? Только этого им и не хватало! Да им кто бы её понизил, чесс-слово!
Замечу ещё, что есть ещё сложившаяся привычка искать у интернет-пользователей - об этом любит говорить Илья. Так вот у массового пользователя нет привычки искать вдумчиво, по многу слов, с учётом синонимов и гиперонимов с гипонимами. Есть в среднем желание найти ровно заданные слова в тексте.
Для аналитиков ФСБ - наверно, можно предлагать систему с тезаурусом и сложным поиском. Мне кажется, это и есть тайная мечта академических коллективов - поставлять спецслужбам и политикам.
Я думаю, что это редактированный текст, специально, чтобы было смешно.
Обычно текст машинного переводчика даже более дурацкий, но и более скучный. Я сталкивался с подобным феноменом. Сначала человек начинает с реального примера, а потом придумывает по аналогии, чтобы смешнее.
Проверяешь в реальной программе - эффект не повторяется.
Не знаю, правда ли, что это взят переводчик Полиглоссум (что-то я сомневаюсь, скорее ПроМТ). Я вообще никогда переводчика Полиглоссум не видел, только словари.
Кстати, в последнее время ПроМТ значительно улучшился, хотя нормальным его переводы не назовёшь.
Отчего же это Яндекс "формально" прав? Как раз наоборот - и формально, и по понятиям неправ. Не по-пацански поступает.
Слово "почту" никак не является формой "почитать". Просто ни разу. Почту книгу, что ли? Почту, почту, запомню страницу и спать...
Оно может быть формой глагола "почесть" (почту за счастье подать вам шаль) или формой существительного "почта".
Это просто прямая ошибка.
Вообще, конечно, удивительно, как Яндекс объединяет слова при поиске (или при индексации). Вот уж где явное различие с Рамблером и Апортом:
На запрос "почту"
(http://www.yandex.ru/yandsearch?text=%EF%EE%F7%F2%F3) подсвечиваются:
* почитай (совершенно непонятно, как получается из "почту"),
* почти (это понятно - повелительное наклонение глагол "почесть"),
* почитать (опять неясно происхождение ошибки).
Непонятно, на каком этапе склеивается, ладно бы это происходило при построении гипотез о склонении неизвестного слова, но ведь оба слова известны словарю.Ясно, что где-то в морфмодуле или индексаторе срезали угол, но где точно, неясно.
Я рискну предположить, что глаголу "читать" в словаре Яндекса ошибочно приписана ещё одна несуществующая форма инфинитива - "честь".
Причём это регулярная ошибка, потому что она повторена и для приставок: почесть=почитать, зачесть=зачитать. Это скорее на уровне входов словаря, ибо вес этого отождествления форм большой - ошибки вылезают на первых местах, то есть это считается одним и тем же словом. Желающие могут проверить сам, добавляя приставки и т.п.:http://www.yandex.ru/yandsearch?text=%E7%E0%F7%F2%E8