2spark&AiK
Мне кажется, что для тему, начатую вашим диалогом, нужно бы перенести в другую ветку.
2msa
Присоединяюсь к Euhenio, давайте вернемся к задаче и примеру.
Задача: построить элементарную морфологию (для чего, вроде бы, возражений нет) на конкретном примере, например, "идти-шел". Алгоритм, естественно, должен работать и на других примерах. Надеюсь, здесь тоже возражать не будете.
Вы дали алгоритм: повторяются три слова, в середине разные, вход-выход одинаковы, тогда середину сводим в одну лексему.
Строится элементарный контрпример "Intel XXXX точно". Понятно, можно привести и другие.
Ваш ответ:
Здесь уже все предельно просто. Если алгоритм нельзя внятно изложить (хотя вы изложили его ясно), то тем более его нельзя запрограммировать.
давайте без эмоций. Вы не в троллейбусе, боюсь, здесь это не поможет.
Простите, но это даже разбирать не хочется. Набор умолчаний, непонятные выводы, несвязанные отсылки.
Давайте вернемся к построению морфологии. Если все-таки здесь нет внятного алгоритма, то давайте считать вашу попытку смелой, но пока неудачной.
2AiK
Боюсь, что до этих трудностей алгоритм даже не дойдет.
Согласен, мой пример не совсем точный для одинаковых входа-выхода.
Тогда такой контрпример.
"Intel ХХХХХ точно" http://yandex.ru/yandsearch?text=Intel+%2F%2B2+%F2%EE%F7%ED%EE
"Intel совершенно точно"
"Intel позволяет точно"
"Intel уж точно"
"Intel прибывает точно"
"Intel еще точно"
"Intel попортить точно"
Согласно вашему алгоритму, сливаем в одну лексему "совершенно-позволяет-уж-прибывает-еще-попортить".
Опять нужно разделять объекты (проблема вашей "омонимии").
Уточните, пожалуйста, как модифицировать алгоритм, чтобы решить сию проблему.
А логики человека, даже маленького, у машины, извините, нет.
Просто и ясно.
Приведу контрпример (не менее простой, на мой взгляд):
берем Яндекс и задаем запрос "одинаково" http://yandex.ru/yandsearch?text=%EE%E4%E8%ED%E0%EA%EE%E2%EE.
Число встреч 1330107.
Приведу несколько с первой страницы.
"реклама одинаково полезна"
"йогурты одинаково полезны"
"должна одинаково волновать"
"лекарства одинаково полезны"
"относительное одинаково маздай"
"звучать одинаково с"
Согласно вашему алгоритму, сливаем в одну лексему "полезна-полезны-волновать-маздай-с", а также "реклама-йогурты-должна-лекарства-относительное-звучать".
Шум явно превысил допустимые пределы.
Т.е. в вашем алгоритме возникла естественная проблема разделения объектов.
2bvd Борис, рад приветствовать.
То, что нет аналогов, не всегда плюс, хотя и не минус с p=1.
Давайте для начала разберем простейший пример, как ваша система получит морфологию (хотя бы, просто сведет лексему) слова "идти".
Пока я не увидел механизма, приводящего к отождествлению форм "шел" и "иду".
Без такого механизма уменьшить размерность матрицы (графа) смежности до реальных размеров в русском языке (или другом флективно богатом) нереально.
И, пожалуйста, подробнее про "темные" места в графе.
Контрпримеров, конечно же масса, и довольно простых (например, рассказ о свежих событиях со ссылкой на старые с датой).
Однако, интуитивно кажется, что статистически ваши соображения должны работать. Значимая корреляция между датами в тексте и датой обновления информации имеется.
вот небольшой список.
THE
OF
TO
IN
AND
A
ON
FOR
SAY
THAT
WITH
WAS
IS
BY
AT
IT
FROM
HE
AS
HAVE
BE
HIS
BUT
I
AN
ARE
WERE
WILL
NOT
WE
THEY
AFTER
THEIR
GMT
WHO
THIS
BEEN
WHICH
FIRST
NEW
WOULD
NO
UP
PEOPLE
ITS
TWO
ONLY
ONE
OVER
OUT
ALL
MORE
ALSO
THERE
ENGLISH
WORLD
LAST
INTO
OR
WHEN
YEAR
ABOUT
NEWS
AGAINST
SOME
PERCENT
IF
MAY
THAN
OTHER
TIME
COULD
EAST
ACCESS
TOLD
STORY
FRIDAY
INTERNATIONAL
WEDNESDAY
MILITARY
STATE
MONDAY
BEFORE
SINCE
THEM
TUESDAY
THURSDAY
OFFICIAL
RUN
BETWEEN
CAN
DOWN
COUNTRY
FOREIGN
PEACE
SOUTH
NOW
Пилот Зума начали делать и в Минэкономразвития.
См., например, статью в "Ведомостях".
Правда, без ляпов в ней не обошлось: скажем, пример мы делали с Оренбургской областью, а не с Омской.
Но и контролировать ситуацию поисковику в чем-то будет проще. Например, выборочно сверять, у кого присланный индекс не совпал с индексом, составленным самим поисковиком. И, соответственно, "к ногтю".
Нельзя сказать, что такого вида спама нельзя защититься. Способы есть.
Но тогда начнутся обычные войны поисковика и спаммеров.
Появятся статьи по оптимизации, рекомендации по корректировке индекса и т.д. В общем, никакой существенной выгоды по сравнению с обычной работой команды поисковика по отлову спама такая схема, скорее всего, не даст.
Спасибо Игорю Ашманову за подробное и доступное освещение такого сложного вопроса, как омонимия.
Кстати, один из способов решения этой проблемы при разборе единичного текста был представлен на последнем Диалоге (один из авторов, кажется, из МИСиСа).
2Садовский
---------------
Вы можете заметить, что будут ущемлены те, кто ищет именно слова "девать" и "почти". Верно. Но, во-первых, это небольшой процент пользователей, во-вторых, как уже упоминалось, можно выдавать сообщение с предложением поискать по более редкому из двух омонимов.
Александр, ваши доводы полностью справедливы.
Однако подобная отсылка "к большинству" верна до тех пор, пока мы остаемся в нынешней аудитории поисковиков (ориентированной на электронные технологии). Это первое.
Второе соображение еще проще. Языковая ситуация с контекстом может поменяться кардинально в любой момент. Например, могут выйти популярные фильмы "Почту за честь" и "Дело".
Вот тогда юзеры посмеются над поисковиком, "релевантно" дающим на всякое "дело" документооборот.
А ведь хочется решить проблему, как минимум, не создавая дополнительной работы по отслеживанию контекстов, т.е. не увеличивая себестоимости работы поисковика. Не говоря уж о естественном желании разработчика не возвращаться к решенной проблеме.
Но, повторюсь, вышесказанное не означает, что контекстами не надо заниматься. Только проблема, как всегда, сложнее, чем видится.
2Сегалович
Илья, не уточните ли насчет "дисамбгиуатора": правильно ли я понял, что он работает с небольшим текстом и практически верно разделяет омонимы?
Ведь кажется, что для верной работы статистического инструмента нужен довольно объемистый текст.