AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы

Борис, приветствую.

Поясни, зачем нужен выверенный корпус?

Статистика д.б. достаточна на любом корпусе, естественно, большом (порядка сотни миллионов словомест и чем больше, тем лучше). Вероятность наложения устойчивых ошибок (типа агенство) на ошибки словаря достаточно мала, во всяком случае, объем здесь должен побить качество выверенного корпуса.

Я не говорю, конечно, за другие задачи текстового анализа, часто без качества не обойтись.

Мы гоняли "своего" Зализняка через невыверенные тексты и качеством вполне довольны. Правда, давно это было, альтернативы - хороших объемных корпусов и не было.

Как писал funsad
Тайна мертвых дроздов открывается просто: это очередной интерфейс к Google. Результаты с Google, перемешанные в случайном порядке, и никакой инициативы, даже сниппеты копируются один в один.

Не совсем согласен, Александр. Дрозд на запрос компьютерные игрушки выдал, что документов нет. Гугл же нашел 29700 документов. Так что технология новая (отличия есть), хотя пока так и непонятно, в чем преимущества.

Как писал ast
если слов немного (N<10) и машинного времени не жаль

Надо определить в постановке задачи, для каких N ее надо решать.

Допустимый диапазон не слишком велик.

Для N<10 действительно годится предложенный алгоритм (потери в числе операций по сравнению с рекурсивным алгоритмом ~e^N раз согласно формуле Стирлинга). Для N в интервале 10-16 использовать надо рекурсию.

Правда, решение в ту или другую сторону на границе N=9-11 зависит от эффективности реализации алгоритмов.

Для N>16, боюсь, уже никакой алгоритм не поможет. Число операций в случае, скажем, N=20 >10^18, что, конечно, выше возможностей не слишком большого кластера из обычных компьютеров.

ostmaster:

Про "авторов" ни слова, ни мысли...
Интересно, у нас хоть когда-нибудь хоть что-нибудь будет значить копирайт???

Простите, не поясните ли, где в постановке обсуждаемой задачи нарушение копирайта? Скачивать автоматически для себя или(и) для своей организации открытый контент - по-моему, здесь все чисто и законно. Другое дело, что дальше делать с полученными статьями, тут могут быть варианты. Однако они непосредственно к поставленной задаче отношения не имеют.

Как писал spark
Это по подшивке газет поиск был, или по большей базе?
... Хотя вряд ли пригодится, потому как я украинские тексты обрабатываю.
Кстати, интересно, как зум работает. Это с семантическими расстояниями как-то связано?

База - подшивка газет в 7 млн. статей. Конечно, на демо-сервере база существенно урезана.

Была бы украинская база, был бы и украинский список слов-словосочетаний, но увы.

Что до работы Зума, то расстояния между терминами не применяются, работает система "короля играет свита" - статанализ контекста. Существенно, что при оценивании весов терминов применяется принцип относительности, иначе не избежать проекции верхушки словаря по закону Зипфа-Мандельброта. Подробнее на эту тему я рассказывал в топике Морфология, ключевые понятия и семантические связи текста. Опять же есть статьи на демо-сайте Зум.

Ашманов: Зато полно конференций, блогов, прочей рыхлой, грубой, сырой, неграмотной ерунды.

Мы со своим Зумом давно точим зубы на этот массив данных. Мне кажется, что именно в этой ерунде можно и найти новые факты, и провести социометрию, гораздо более разумную, чем "индекс цитируемости" в Эксперте-НЭБ.

Думаю, в рамках одного из наших госпроектов ближе к концу года мы это реализуем.

Кроме нескольких инфинитивов глаголы используются только для поиска по точной цитате

Что касается координат глаголов, то экономить на спичках здесь смысла особого нет. Зачем обеднять сервис пусть даже на 0,01% запросов? Все поисковики и от стоп-словаря, наконец-то, отказались. Везде можно теперь найти "быть или не быть".[

Вот что дает наш "альтернативный словарям" Зум на запрос "экология". Привожу начало списка слов с весами. Если интересно, могу выслать более полный список слов и словосочетаний.

ОТХОД 16,1

НАУКА 13,2

ЗАГРЯЗНЕНИЕ 12,3

ЭКОЛОГ 11,1

ПРИРОДООХРАННЫЙ 10,9

ОКРУЖАТЬ 10,2

ВЫБРОС 10

НАУЧНЫЙ 8,99

ПРИРОДОПОЛЬЗОВАНИЕ 6,62

ЭКОЛОГИЧЕСКИ 5,88

ВЕЩЕСТВО 4,94

ВРЕДНЫЙ 4,93

РАЗРАБОТКА 4,92

ОЧИСТКА 4,67

ЯДЕРНЫЙ 4,5

ПЕРЕРАБОТКА 4,13

Приветствую всех на этом неожиданно разросшемся топике.

Попробую закрыть небольшое белое пятно, да простят меня более сведущие в данном вопросе.

Немного о системе Ирбис.

6. Система Irbis - неизвестно чья
Автор - Максимов Н.В., последнее место работы - РГГУ.

ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта, считая и всю предысторию такового (Агама, МИРС).

Используется Ирбис, в основном, в научных библиотеках.

Про нашу Галактику-Зум можно почитать, например, здесь

Что до дискуссии, то тезаурус Бориса (НИВЦ МГУ), скорее всего, лучший сегодня в России. Что до "заточенности", то заточить такой инструмент на миллионе документов дорогого стоит.

После этого проделайте аналогичную операцию и с числами 4.0*10^2 и 0.6*10^3

Это вы так предлагаете округлять 40 и 60? При всем моем уважении к вам, Aik, думаю, что и физики так округлять эти два числа не стали бы.

Еще и про операцию округления начать дискуссию? Желательно хотя бы предварительно закончить с отношением порядка.

Надеюсь, слышали про принцип Оккама?

Не надо вводить новых сущностей, пока в них нет нужды.

Для определения отношения порядка для двух положительных чисел нет надобности в введении еще одной операции (округления, например).

Про округление можно подискуссировать в "Разном", если желаете.

Округлите пожалуйста 1.4 и 1.6 с точностью до целых.

На округление можно списать все, что угодно, т.к. это типично порядковая операция.

Значит, 40 и 60 - одного порядка? Если да, то в чем разница наших позиций? Назовите это хоть округлением, хоть приведением, хоть обрезанием, наконец.

Еще раз, нет разницы между отношением порядка 51 и 500, 52 и 519,..., 100 и 999.

Если хоть одна из пар одного порядка, то и другие - одного. Это - непреложный математический факт, протирал ли кто-то где-то штаны или нет, не дипломами же нам с вами тягаться, будь я даже и физиком.

Всего: 166