- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?</font>
У нас на форуме есть и поподробнее.
http://forum.yandex.ru/index.xhtml?pr=&id_note_forum=18358&by_count_days=30®im=2&cur_page=1&by_count_page=20#forum
С уважением,
Илья Сегалович,
Яндекс
Зайди на этот сайт, он посвящен именно морфологическим анализаторам. С описанием архитектуры, download'ами и т. д.
http://linguist.nm.ru.
Добрый день, Илья.
Случайно наткнулась в Интернете на Ваше письмо (см. ниже).
Вы правы, русских словарей cуществует очень много. И кстати говоря, далеко не все они произошли из Зализняка. История некоторых вообще удивительна. Я много чего про них могу рассказать. В Каталоге на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm эта информация представлена, но иногда в довольно сжатом виде. Хочу найти время и дополнить. И еще мне все твердят, что нужно сделать такой же каталог, но на русском. Не знаю, надо ли это. По-моему, по-английски все читают...
Вы также правы в том, что информация на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm постепенно устаревает. Действительно, там представлено состояние дел на начало 2000 года. С тех пор много чего изменилось. Пора обновлять. Это большая работа. Некоторые уже прислали свои обновления. Давайте и Вас тоже обновим! Как Вы на это смотрите? Конечно, это займет время, но ведь надо.
Всего хорошего
Вера Семеново (vera.fluhr@wanadoo.fr)
>Я всего лишь не хотел заниматься саморекламой.
>Думаю, что в России не меньше сотни работающих и живых колективовов >лингвистов. Из них, как минимум, половина со словарями русского языка.
>В каталоге Веры Семеновой (Флер) (последняя версия здесь: >http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.
>Там информация примерно годовой-полуторагодовой давности.
>Илья Сегалович,
>Яндекс
С какой скоростью выполняется алгоритм морфоанализа? Какой при этом объем данных словаря?
Как долго длится процедура индексаци документа с учетом морфоанализа и без?
Происходит ли при этом обработка орфокорректором?
Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?
У-п-с, пропустил эти вопросы.
С какой скоростью выполняется алгоритм морфоанализа?
Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).
Последний раз когда мерил (году в 1997)
было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.
Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):
time mystem -c <uwords.txt >/dev/null
5.07 real 2.85 user 0.43 sys
Считайте, примерно тысяч 18-19.
Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)
"Объем данных" или "объем словаря"?
so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.
Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.
С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.
Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.
Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:
То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.
Без лемматизации не мерил, но думаю, что
будет процентов на 25 быстрее
Нет. См. выше.
Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.
Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".
Илья
To: iseg
На сколько я помню в Dialog`95 была статья о "Реализации словаря на основе разряженой хэш таблицы" - каждой основе сопоставлялся определенный набор афиксов, а номер вхождения определенной цепочки в хэш-таблицу (14-битный ключ) являлся определяющим для какого-либо слова. Используется ли именно этот идентификатор при инвертировании и сколько байт отводится на одно слово в ИФ?
На какой основе (алгоритме) от слова отбрасываются морфы?
"Михаил Маслов... Для несловарных слов используются идея Белоногова-Аношкиной-моя." Методы перебора? можно ли где-то об этом почитать?
Есть ли ограничения в модели на длину слова?
Опять же о статье Dialog`95 С какой целью ранжировались результаты по частотам встречаемости слов?
"у нас работает колдунщик который может посоветовать вместо "интерьнет" поискать "интернет"...." - какие механизмы в основе колдования:)?
Спеллер? Словарь вариантов заведомо неправильных слов? Поиск на нечеткое равенстово?
Спасибо,
просто очень интересно что как устроено/