- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Борис, продолжим? :)
...
показатели полноты/точности по словоформам/леммам будут у всех одинаково высокими с незначительными отличиями.
Ну, это понятно :) Вот в этих самых отличиях и состоит разница :) Один запрещает множественное число, а другой, по наследству от Великого Словаря Зализняка (без смайликов, словарь действительно великий), его разрешает. Например, у слова "скотоложство". Не пробовали заниматься, к примеру, скотоложствами? :)
Ладно, предлагаю закончить тему морфологий. Готов даже не глядя признать, что ваша и лучше, и полнее... :)
Это ведь никому здесь, кроме нас с вами, не интересно :)
... мы используем тезаурус...
... чтобы они помогали при поиске их надо ПРАВИЛЬНО делать...
... на наших текстах ... при СОХРАНЕНИИ точности полнота в 4 раза больше. Результаты опубликованы.
Во-о-от :) Вы сами подтвердили мои самые мрачные подозрения :) Ваша система безупречно работает на ваших текстах. Просто потому, что она под них отлажена! И система машинного перевода ЭТАП-N на конференциях тоже демонстрирует чудеса интеллектуального перевода! Правда, только на текстах, на которых ее отлаживали разработчики :(
Кроме того, тезаурусы для поиска нельзя делать "правильно" или "неправильно". Тезаурус, который увеличивает полноту поиска, не портя отношения "сигнал/шум", или, если угодно, не уменьшая точность, составить можно только одним способом. И способ этот - сузить предметную область до предела.
Более того, такие тезаурусы еще и имеют тенденцию стареть и терять актуальность какое-то время. Небольшое весьма.
такого проекта.
:) Семантика: лженаука или продажная девка новой буржуазии? (c) Ашманов, "Диалог-99"
(в том числе на английском языке) мы умеем неплохо, умеем автоматически рубрицировать ... порождать достаточно связную аннотацию.
Это как раз не фокус. И делается это без ручного составления каких-либо словарей. У МедиаЛингвы аннотатор и классификатор были в линейке продуктов уже в 1998 году. Впрочем, и сейчас, кажется, есть.
Кстати, об отечественных искалках. Забыл! Есть еще такой продукт - Следопыт, также от МедиаЛингвы.
С уважением, Андрей Коваленко.
Да ну что ты, Илья! Мы ж вовсе даже и не... :) У нас тут, понимаешь, дискуссия получается :)
Илья, эти решения принимаю не я.
Ладно, предлагаю закончить тему морфологий. Готов даже не глядя признать, что ваша и лучше, и полнее... :)
Это ведь никому здесь, кроме нас с вами, не интересно :)
Нет-нет, продолжайте, очень даже интересно, хоть и непонятно. А то оптимизаторских споров тут сколько угодно, а про то, у кого поисковик лучше, ещё не видел :)
А мы поисковики, вроде, не сравниваем :) Мы о самом подходе говорим :)
Подход тоже интересен. Так что не нарушайте пункт 4 Правил даже частично :)
Приветствую всех на этом неожиданно разросшемся топике.
Попробую закрыть небольшое белое пятно, да простят меня более сведущие в данном вопросе.
Немного о системе Ирбис.
ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта, считая и всю предысторию такового (Агама, МИРС).
Используется Ирбис, в основном, в научных библиотеках.
Про нашу Галактику-Зум можно почитать, например, здесь
Что до дискуссии, то тезаурус Бориса (НИВЦ МГУ), скорее всего, лучший сегодня в России. Что до "заточенности", то заточить такой инструмент на миллионе документов дорогого стоит.
ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта,
Это точно. Еще году в 1994-м наши потенциальные заказчики выбирали между "Аркадией" (то есть нами), МИРС-ом (Пархоменко) и ИРБИСом (Максимов).
Последние две системы требовали свой собственный входной формат.
Вообще, судя некоторым конференциям (http://www.gpntb.ru/libcom/), ИРБИС доминирует в госструктурах ориентированных на z39.50 (протокол поиска в библиографических данных) и RUSMARC (отчечественная версия USMARC-а - стандартного библиографического формата).
насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов
Ты наверное Hull-а имеешь в виду?
Картунен и Ко давно, уже лет 8 как, сделали машинку, которая читает PC-KIMO-вский формат и строит очень быстрый FSM. Они это называют transducer.
В PC-KIMO ужасно противно описывать правила. Таблички надо ручками печатать. Но словарь получается вполне себе закрытый и на корпус вообще не смотрит.
Вот в Америке есть относительно новая програмулька Linguistica (Гольдшмит кажется автор). Так вот он действительно со страшным по силе убежденности пиаром пропагандирует полностью автоматическую систему построения - вчистую по корпусу.
Для языка уагу-дугу действительно альтернативы нет :) (ну нет в уагу-дугу зализняка, ну что поделаешь)
Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)
А в бесплатных системах (многосерч, аспсик) - царство ispell-а. Только я бы предостерег всех от увлечения этим условным "морфоанализатором". Дело в том, что словарь ispell решает задачи спеллинга и максимально экономно описывает все "разрешенные" в данном языке словоформы. А это не то же самое, что описание слов и их словоизменительных парадигм. Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.
Ага... И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.
Заметна - не то слово! :) Но если выбора нету, а денег заплатить возможности нет, то это лучше, чем ничего :)
Борис, продолжим? :)
Добрый день!
Один запрещает множественное число, а другой, по наследству от Великого Словаря Зализняка (без смайликов, словарь действительно великий), его разрешает. Например, у слова ....
Дискуссия несколько отклоняется от первоначальной темы
"отечественая локальная поисковая система для работы в госсекторе"
(сравнительно небольшое число документов - не более ста тысяч -
достаточно чистых - прогнанных через спелчеккеры :) )
в сторону "какая должна быть морфология русского языка".
Но некоторые вопросы весьма примечательны и их стоит обсудить
подробнее.
Периодически возникает вопрос о борьбе за "чистоту языка".
И это ПРОБЛЕМА, а не задача - в смысле, что решить нельзя,
а можно только приблизить тем или иным способом.
Программа морфологического разбора (словаррная или бессловарная)
включает (или не включает) в себя:
- словарь;
- модели и алгоритмы обработки омонимичных словоформ;
- модели и алгоритмы обработки неизвестных словарю слов.
Есть живой русский язык, проявляющийся в корпусе текстов.
Язык достаточно быстро меняется - появляются новые слова,
видоизменяются правила использования существующих и т.д.
Но есть некая "норма", фиксируемая в авторитетных словарях и
сводах правил.
Беда в том, что эту норму в реальных текстах нарушают все
кому не лень.
Но это их дело. Дело же разработчиков программ морфоразбора
ВЫБРАТЬ: какому из принципов следовать:
- бороться за чистоту "нормы" и перекладывать тяжесть на
модели обработки неизвестных слов
- следовать за текстами - расширять словари, в том числе за
счет "полуошибок" (то есть возможное нарушение "нормы",
но в пределах понимания).
Вопрос о "норме" сам по себе очень сложен. Чего стоит, например,
буква "ё". Я, например, не знаю надо ли склонять словоформу "Keva"
(еще один пример - слышал, что Л.Слиска считает правильным,
чтобы ее фамилию не склоняли - в грамматическом смысле :) тоже).
При этом одна и та же программа морфологии (в той или иной модификации в моделях и словарях) может применяться и как
в качестве ядра системы проверки орфографии (тут надо бороться
за "норму"), так и в качестве компонента ядра ИПС.
В последнем случае могут быть разные решения.
В своей работе мы стремимся, не нарушая по-возможности "норму",
все же обеспечить максимальное покрытие.
Что касается конкретного забавного примера о "ненормальности"
множественного числа у некоторых существительных - одно время
(году в 1994-95) мы чистили словарь (исходно Зализняк) и по
этому критерию. Но затем напоролись на реальные случаи употребления,
пришлось иногда и возвращать.
Ведь пишут, а значит, могут и спросить, ожидая именно правильной
модели морфологического словоизменения, а не просто совпадения
словоформы - это-то сделать элементарно.
Кстати, приведенный примерчик (множественное число) встречается
в свалке Интернета (по индексу Яндекса).
Попробуем подвести итоги.
На мой взгляд к любой морфологии (как комплексу словарей и моделей)
можно предъявить кучку претензий (обычно уже известных заранее
- примерчик-то не нов). Но является ли это принципиальным?
Более важна управляемость процесса:
1) либо Заказчика устраивает, что есть
2) либо все весьма быстро должно быть доработано под конкретные
задачи ("норму" или "тексты"). А это вопрос организации
работ, может быть посчитано (например, с привлечением
внешней экспертизы, если только издержки :) не превысят
выгоды)
Еще пара мелких замечаний.
Это как раз не фокус. И делается это без ручного составления каких-либо словарей. У МедиаЛингвы аннотатор и классификатор были в линейке продуктов уже в 1998 году. Впрочем, и сейчас, кажется, есть.
Аннотацию делать легко, можно и без словаоей и т.п. Разница в информативности между аннотациями,
полученными разными методами небольшая (см. <a href="http://www.itl.nist.gov/iaui/894.02/related_projects/tipster_summac/summac-final-report-part2.ps">здесь - 20Мб 😮 файл 1998 года</a>).
Штука в том чтобы сделать СВЯЗНУЮ аннотацию - иногда нужно
(см. на странице 22-23 указанного документа :) ).
Насчет классификаторов. Если количество рубрик не превышает 100,
то предложено туча методов с примерно одинаковыми результатами.
Но! Готов дать два ящика пива тому, кто продемонстрирует свою
работающую автоматическую систему сколько-нибудь качественно равномерно рубрицирующую по 1000 рубрик, например, правовые документы.
А так много чего "есть". Говорят и "синтаксис" есть и "семантика",
чего только не услышишь...
С уважением,
Борис Добров
Хочу добавить, что есть ещё наша поисковая машина - та, которая работает на FINDS.RU в качестве арендуемого поисковика для сайтов.
Её делал Алексей Иванов и ещё кое-кто.
Иванов - в недавнем прошлом руководитель поиска на Рамблере (2000-2001), а перед этим - технический директор МедиаЛингвы, где под его руководством делались МультиЛекс и Следопыт, а также выпущен Русский семантический сервер для Экскалибура.
Что касается спора о том, чья морфология лучше, то Кева здесь, скорее всего, прав в том смысле, что его лучше. Я с г-жой Жанной Аношкиной и её морфологией имел дело, но тогда это был типично академический продукт, годный только для теоретического рассказа на конференции Диалог и тому подобных. Насколько я помню, там была очень переусложнённая и трудная для программирования и ведения модель. Вообще видел многое, что делали по прикладной лингвистике в НИВЦе - ну да, для диссертаций или курсовых - нормально. А боевых продуктов, используемых массами людей - так и не появилось. А Кева выпускал проверку правописания в 1992 году, работавшую на реальных текстах, и с тех пор не переставал развивать.
Поэтому насчёт лучшего тезауруса в России - как-то я сомневаюсь. Впрочем, может быть, я ошибаюсь и за последние годы что-то изменилось.
Но это имеет не так много отношения к тому, какой поисковик выбрать. Морфология в поисковике - не определяющее звено, как Кева и Илья, конечно, знают. На данном форуме в соответствующих нитках можно найти много примеров ошибок и ложной омонимии в морфологии Яндекса, что, однако, не мешает ему искать и быть поисковиком номер 1 в России.
Но всё-таки нужно обратить внимание на то, что обсуждаются системы разного веса - Кевины продукты, произведение Ильи всё-таки используются массами людей. Остальное - пока не более, чем формальные упражения. Можно просто прикинуть, какого объёма тексты были пропущены через Кевин морфоанализатор и индексатор Ильи за последние три года хотя бы. И при чём здесь будет миллион документов? Это число просто близко к нулю.
Хочу добавить, что использование словаря синонимов и тезауруса при поиске ещё никому не помогало. Это странно и обидно, но это так. Идея вроде хорошая, интуитивная. Просто в реальной обработке текста интуиция часто противоречит жизни. Обработка текстов - штука странная, часто нелепая. В поиске зачастую и морфология мешает.
Вот Гугл принципиально не использует морфологию, ищет только в заданной форме - и ничего, нормально, занял место номер 1.
Про "правильно использовать" - извините, трудно поверить. Это звучит, как расхожая фраза. Да, вот у нас искусственный интеллект - у других не работает, а у нас работает, просто надо правильно использовать...
Я вот не видел ни разу, чтобы от синонимов релевантность повысилась. А шум увеличивается на порядок. Да, собственно, г-н Добров это косвенно признаёт - "возрастает полнота в 4 раза при сохранении релевантности".
Спросите Кеву и Илью - им надо повышать полноту? Только этого им и не хватало! Да им кто бы её понизил, чесс-слово!
Замечу ещё, что есть ещё сложившаяся привычка искать у интернет-пользователей - об этом любит говорить Илья. Так вот у массового пользователя нет привычки искать вдумчиво, по многу слов, с учётом синонимов и гиперонимов с гипонимами. Есть в среднем желание найти ровно заданные слова в тексте.
Для аналитиков ФСБ - наверно, можно предлагать систему с тезаурусом и сложным поиском. Мне кажется, это и есть тайная мечта академических коллективов - поставлять спецслужбам и политикам.