AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы

2spark&AiK

Мне кажется, что для тему, начатую вашим диалогом, нужно бы перенести в другую ветку.

2msa

Присоединяюсь к Euhenio, давайте вернемся к задаче и примеру.

Задача: построить элементарную морфологию (для чего, вроде бы, возражений нет) на конкретном примере, например, "идти-шел". Алгоритм, естественно, должен работать и на других примерах. Надеюсь, здесь тоже возражать не будете.

Вы дали алгоритм: повторяются три слова, в середине разные, вход-выход одинаковы, тогда середину сводим в одну лексему.

Строится элементарный контрпример "Intel XXXX точно". Понятно, можно привести и другие.

Ваш ответ:

Я уже незнаю как вам лучше обьяснить данную тему...Толи я неправильно рассказывал тут об алгоритме , толи вы отказываетесь понимать о чем идет речь.

Здесь уже все предельно просто. Если алгоритм нельзя внятно изложить (хотя вы изложили его ясно), то тем более его нельзя запрограммировать.

это бред !!!!...поймите простое человеческое!!!!!

давайте без эмоций. Вы не в троллейбусе, боюсь, здесь это не поможет.

У нас есть фраза:
"Идет он по улице мимо вывески Intel"
Получаем:
1-е , 2-е слово и 3-е слово: получуем фигуру "3" .
Связи(поймите наконец то) :
"Ид" , "о" и "ули" отбросятся ,но приобретут силу кода повысится степепь полинома (а может быть ?).Отобразим этот закон в полиноме(не понадобиться выбросим).

Простите, но это даже разбирать не хочется. Набор умолчаний, непонятные выводы, несвязанные отсылки.

Давайте вернемся к построению морфологии. Если все-таки здесь нет внятного алгоритма, то давайте считать вашу попытку смелой, но пока неудачной.

2AiK

Боюсь, что до этих трудностей алгоритм даже не дойдет.

2msa

Согласен, мой пример не совсем точный для одинаковых входа-выхода.

Тогда такой контрпример.

"Intel ХХХХХ точно" http://yandex.ru/yandsearch?text=Intel+%2F%2B2+%F2%EE%F7%ED%EE

"Intel совершенно точно"

"Intel позволяет точно"

"Intel уж точно"

"Intel прибывает точно"

"Intel еще точно"

"Intel попортить точно"

Согласно вашему алгоритму, сливаем в одну лексему "совершенно-позволяет-уж-прибывает-еще-попортить".

Опять нужно разделять объекты (проблема вашей "омонимии").

Уточните, пожалуйста, как модифицировать алгоритм, чтобы решить сию проблему.

А логики человека, даже маленького, у машины, извините, нет.

::"одинаково" шел он "одинаково":: 2-я фраза ::"одинаково" иду я "одинаково":: " проделываем с ней тоже самое и налаживаем дуг на друга. Имеем одинаковый вход и выход , а промежуток разный.

Просто и ясно.

Приведу контрпример (не менее простой, на мой взгляд):

берем Яндекс и задаем запрос "одинаково" http://yandex.ru/yandsearch?text=%EE%E4%E8%ED%E0%EA%EE%E2%EE.

Число встреч 1330107.

Приведу несколько с первой страницы.

"реклама одинаково полезна"

"йогурты одинаково полезны"

"должна одинаково волновать"

"лекарства одинаково полезны"

"относительное одинаково маздай"

"звучать одинаково с"

Согласно вашему алгоритму, сливаем в одну лексему "полезна-полезны-волновать-маздай-с", а также "реклама-йогурты-должна-лекарства-относительное-звучать".

Шум явно превысил допустимые пределы.

Т.е. в вашем алгоритме возникла естественная проблема разделения объектов.

2bvd Борис, рад приветствовать.

2msa

То, что нет аналогов, не всегда плюс, хотя и не минус с p=1.

Давайте для начала разберем простейший пример, как ваша система получит морфологию (хотя бы, просто сведет лексему) слова "идти".

Пока я не увидел механизма, приводящего к отождествлению форм "шел" и "иду".

Без такого механизма уменьшить размерность матрицы (графа) смежности до реальных размеров в русском языке (или другом флективно богатом) нереально.

И, пожалуйста, подробнее про "темные" места в графе.

Контрпримеров, конечно же масса, и довольно простых (например, рассказ о свежих событиях со ссылкой на старые с датой).

Однако, интуитивно кажется, что статистически ваши соображения должны работать. Значимая корреляция между датами в тексте и датой обновления информации имеется.

вот небольшой список.

THE

OF

TO

IN

AND

A

ON

FOR

SAY

THAT

WITH

WAS

IS

BY

AT

IT

FROM

HE

AS

HAVE

BE

HIS

BUT

I

AN

ARE

WERE

WILL

NOT

WE

THEY

AFTER

THEIR

GMT

WHO

THIS

BEEN

WHICH

FIRST

NEW

WOULD

NO

UP

PEOPLE

ITS

TWO

ONLY

ONE

OVER

OUT

ALL

MORE

ALSO

THERE

ENGLISH

WORLD

LAST

INTO

OR

WHEN

YEAR

ABOUT

NEWS

AGAINST

SOME

PERCENT

IF

MAY

THAN

OTHER

TIME

COULD

EAST

ACCESS

TOLD

STORY

FRIDAY

INTERNATIONAL

WEDNESDAY

MILITARY

STATE

MONDAY

BEFORE

SINCE

THEM

TUESDAY

THURSDAY

OFFICIAL

RUN

BETWEEN

CAN

DOWN

COUNTRY

FOREIGN

PEACE

SOUTH

NOW

Пилот Зума начали делать и в Минэкономразвития.

См., например, статью в "Ведомостях".

Правда, без ляпов в ней не обошлось: скажем, пример мы делали с Оренбургской областью, а не с Омской.

Первоначальное сообщение от lexus

Шансов на победу у спамеров будет значительно больше, чем сейчас,
т.к. оружие им будет поставлять сам поисковик.

Но и контролировать ситуацию поисковику в чем-то будет проще. Например, выборочно сверять, у кого присланный индекс не совпал с индексом, составленным самим поисковиком. И, соответственно, "к ногтю".

Первоначальное сообщение от lexus

Модель имеет еще один барьер. Как только система наберет определенный уровень популярности, владельцы ресурсов начнут "работать" с индексами. В лучшем случае будут оптимизировать текст сайта, а в худшем - фальсифицировать данные в своем индексе... у каждого вебмастера будет своя собственная машинка по изготовлению индекса.

Нельзя сказать, что такого вида спама нельзя защититься. Способы есть.

Но тогда начнутся обычные войны поисковика и спаммеров.

Появятся статьи по оптимизации, рекомендации по корректировке индекса и т.д. В общем, никакой существенной выгоды по сравнению с обычной работой команды поисковика по отлову спама такая схема, скорее всего, не даст.

Спасибо Игорю Ашманову за подробное и доступное освещение такого сложного вопроса, как омонимия.

Кстати, один из способов решения этой проблемы при разборе единичного текста был представлен на последнем Диалоге (один из авторов, кажется, из МИСиСа).

2Садовский

---------------

Вы можете заметить, что будут ущемлены те, кто ищет именно слова "девать" и "почти". Верно. Но, во-первых, это небольшой процент пользователей, во-вторых, как уже упоминалось, можно выдавать сообщение с предложением поискать по более редкому из двух омонимов.

---------------

Александр, ваши доводы полностью справедливы.

Однако подобная отсылка "к большинству" верна до тех пор, пока мы остаемся в нынешней аудитории поисковиков (ориентированной на электронные технологии). Это первое.

Второе соображение еще проще. Языковая ситуация с контекстом может поменяться кардинально в любой момент. Например, могут выйти популярные фильмы "Почту за честь" и "Дело".

Вот тогда юзеры посмеются над поисковиком, "релевантно" дающим на всякое "дело" документооборот.

А ведь хочется решить проблему, как минимум, не создавая дополнительной работы по отслеживанию контекстов, т.е. не увеличивая себестоимости работы поисковика. Не говоря уж о естественном желании разработчика не возвращаться к решенной проблеме.

Но, повторюсь, вышесказанное не означает, что контекстами не надо заниматься. Только проблема, как всегда, сложнее, чем видится.

2Сегалович

Илья, не уточните ли насчет "дисамбгиуатора": правильно ли я понял, что он работает с небольшим текстом и практически верно разделяет омонимы?

Ведь кажется, что для верной работы статистического инструмента нужен довольно объемистый текст.

Всего: 166