AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы

А где семантические связи-то? что-то я не понял...
выдает доки так же как и любой поисковик с обработкой морфологии.
для примера смотри мой сайт - там моя Система только смыслы ищет
Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

Кроме документов (найденных, как в обычной поисковой системе), мы выдаем т.н. "Инфопортрет" - список слов и словосочетаний, наиболее значимых (в смысле, указанном выше) для данной выборки.

Вы, вероятно, не обратили на него внимания.

Этот список можно понимать, как семантические связи (хотя я этот термин не люблю - до семантики из современных систем ни одна не добралась).

И в этом списке нет никаких предлогов "в", хотя могут и появиться в какой-нибудь специфической базе и запросе (мне пока не попадались таковые).

А где семантические связи-то? что-то я не понял...
выдает доки так же как и любой поисковик с обработкой морфологии.
для примера смотри мой сайт - там моя Система только смыслы ищет
Если уж есть запрос "пожар в Ливане", так его и выдаст, а не кучу предлогов "в".

Кроме документов (найденных, как в обычной поисковой системе), мы выдаем т.н. "Инфопортрет" - список слов и словосочетаний, наиболее значимых (в смысле, указанном выше) для данной выборки.

Вы, вероятно, не обратили на него внимания.

Этот список можно понимать, как семантические связи (хотя я этот термин не люблю - до семантики из современных систем ни одна не добралась).

И в этом списке нет никаких предлогов "в", хотя могут и появиться в какой-нибудь специфической базе и запросе (мне пока не попадались таковые).


А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

В этом случае метод работает. И, естественно, лучше, чем для низкочастотных слов. Стоп-словарь не используется.

Честно говоря, с некоторых пор (лет 8 назад) я противник стоп-словаря, как метода, в чем-то волюнтаристского, апеллирующего к абсолютным свойствам языка.

Есть аналог - поиск по точной словоформе (часто русскоязычные поисковики реализуют только поиск целой лексемы).

Хотя, любая реальная система - это набор компромиссов. Чем-то всегда приходится жертвовать ради сроков и производительности.

Вам, Сергей, это тоже известно.


А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?

В этом случае метод работает. И, естественно, лучше, чем для низкочастотных слов. Стоп-словарь не используется.

Честно говоря, с некоторых пор (лет 8 назад) я противник стоп-словаря, как метода, в чем-то волюнтаристского, апеллирующего к абсолютным свойствам языка.

Есть аналог - поиск по точной словоформе (часто русскоязычные поисковики реализуют только поиск целой лексемы).

Хотя, любая реальная система - это набор компромиссов. Чем-то всегда приходится жертвовать ради сроков и производительности.

Вам, Сергей, это тоже известно.


Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Демо-сайт вместе с обработчиком запросов к базе (около 300 тыс. документов, 1Гб текста) стоит на довольно слабенькой машинке (celeron-433) так что периодически отключается. Хотя с другой стороны, показывает работоспособность технологии на таком недорогом оборудовании.


Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...

Демо-сайт вместе с обработчиком запросов к базе (около 300 тыс. документов, 1Гб текста) стоит на довольно слабенькой машинке (celeron-433) так что периодически отключается. Хотя с другой стороны, показывает работоспособность технологии на таком недорогом оборудовании.

Относительная встречаемость слова (словосочетания) может быть определена, как отношение плотностей встречаемости в выборке и базе.

В этом случае, это - разные понятия.

Но чаще под этим термином понимают отношение числа встреч слова к общему числу встреч всех слов (иначе говоря, плотность).

Конечно, в любом случае получаемая случайная величина не аналогична оценке дисперсии какой-либо простой (равномерной, нормальной и т.д.) случайной величины.

Относительная встречаемость слова (словосочетания) может быть определена, как отношение плотностей встречаемости в выборке и базе.

В этом случае, это - разные понятия.

Но чаще под этим термином понимают отношение числа встреч слова к общему числу встреч всех слов (иначе говоря, плотность).

Конечно, в любом случае получаемая случайная величина не аналогична оценке дисперсии какой-либо простой (равномерной, нормальной и т.д.) случайной величины.


Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.

Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.


Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным

Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.

Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.

Всего: 166