- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
К сожалению в интернете мало освящена проблематика поиска информации… Заранее благодарю всех кто просвятит в следующих вопросах…
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?
2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются?
3) Как организован пословный индекс для незнакомых слов.
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?</font>
Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.
Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).
Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.
Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым
Также как и для словарных. Этим яндекс отличается от других искалок.
Илья Сегалович,
Яндекс
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?
Для тех, кто не знает: форум Яндекса находится по адресу
http://forum.yandex.ru/?forum=188
Хотя, думаю, все будут благодарны, если ответы сотрудников Яндекса будут затем скопированы с форума сюда. Информацию в одном месте легче читать.
С уважением,
Александр Садовский.
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.</font>
Я всего лишь не хотел заниматься саморекламой.
Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.
В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.
Там информация примерно годовой-полуторагодовой давности.
Илья Сегалович,
Яндекс
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?</font>
Производится морфологический разбор, небольшой по-документный статистический аннлиз.
Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.
Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.
"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.
Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?
Илья Сегалович,
Яндекс
Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).
5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?
Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)
6) Где хранится словарь парадигм (хэш-таблица)?
Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).</font>
Примеры, которые Вы приводите - это не "омонимия", а, скорее, "синонимия". И не новое словообразование, а, скорее, новые аббревиатуры.
Словобразование, это когда по слову "компьютер", которое, допустим, есть в словаре, система находит еще и слово "недокомпьютеризованный". Мы не считаем это самой нужной и полезной вещью.
Гипотезы выдвигаются? используя очень простую меру сходства. (см предыдущий пост).
Конечно же бывают слова, для который найти образец не удается - они считаются неизменяемыми.
RealNames это не автоопределение имен собственных, а словарь зарегестрированных ключевых слов интернета. Что-то вроде базы товарных знаков ВНИИГПЭ или же names.ru.
Альтависта ничего при индексировании с именами не делает. Она, так же как и Гугль, iWon и MSN-Search, использует эту базу при поиске и берет с RealNames деньги за популяризацию. (А тот, в свою очередь, собирает деньги с регистраторов)
Моя статья (про хэш-таблицу) описывает морфологию Янекса периода весна 1993- весна 1996 годов. Публичный Яндекс, как Яндекс-Сайт так и Яндекс-Веб работали с самого начала по другим алгоритмам. (см. предыдущий пост)
Илья Сегалович,
Яндекс
Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.
Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...
7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.
8)По каким словам анализ не осуществляется?
Извините, что вмешиваюсь в ваш разговор.
Мне тоже кажется, что использование морфологии в поисковике - пройденный и освоенный этап. Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?
В частности интересно:
1. какие словосочетания выделяет система (не верю, что все)
2. какие словосочетания (по какому признаку) заносятся в поисковый образ.
3. решается ли как-нибудь, или планируется ли решаться проблемы ссылок и эллипсиса? По моему, это очень сильно должно повлиять на частнотные характеристики слов-словосочетаний.
Если есть ссылка с уже готовыми ответами, тоже буду благодарен.