Продолжение - "класификатор"

M
На сайте с 02.10.2002
Offline
2
msa
#21

Вот почему я говорю, что надо научить ходить машину(и лучше симплекса вы не найдете в решении данной проблемы), а потом просто улучшать ее шаги ("Умный учится на ошибках других -дурак на своих").Простое передвижение по дереву не даст такого результата (реальный пример - все поисковики интернета) , которые даст самосовершенствующийся симплекс (дописать самого себя, сам путь - уравнение регресии, которое постоянно совершенствуется).

Я вижу , что особого интереса к этой проблеме у жителей данного форума нет. Причина -толи мой "неудачный " дебют на данном форуме, толи еще что-то.

Всем спасибо за поддержание данной темы.

С уважением

" msa "

wolf
На сайте с 13.03.2001
Offline
1183
#22
Я вижу , что особого интереса к этой проблеме у жителей данного форума нет. Причина -толи мой "неудачный " дебют на данном форуме, толи еще что-то.

Дело в том, что этот форум все-таки больше посвящен вопросам позиционирования сайтов в поисковиках, а вот вопросы технологии разработки поисковых систем действительно пользуются небольшой популярностью. Однако этот форум регулярно посещают разработчики Яндекса (iseg, melkov, wawa), Рамблера (vs, Keva) и Апорта (misha). Может, они с Вами подискутируют.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
B
На сайте с 02.09.2002
Offline
42
bvd
#23
Как писал msa

Я вижу , что особого интереса к этой проблеме у жителей данного форума нет. Причина -толи мой "неудачный " дебют на данном форуме, толи еще что-то.

Причина в том, что не проблема не интересна,

а неинтересно содержаемое предлагаемого,

через которое предлагается еще и продираться.

Дело в том, что предлагаемое НЕ НОВО.

Литература по классификации и смежным вопросам огромна.

Наиболее близко по теме: ассоциативные тезаурусы, коллокации,

матрицы смежности, корреляции, LSA и т.д. и т.п.

Есть продукты, см. например, NeuroK.

Проблема в том, что вся статистика и др. механистичные процедуры

неплохо формируют, максимум, верхнюю часть списка "ссылок".

Но все быстро рассыпается с уменьшением частотности и НИКТО

еще не сделал иного. По-моему, так и не сделает, из-за фундаментальной неполноты текстов.

При этом даже верхняя часть списка может быть полезна пользователю,

например, для уточнения запроса.

Но это УЖЕ РАБОТАЕТ в разных системах.

Идеи с претензией, но без сравнения с другими,

опубликованными в литературе или в Интернете,

обсуждать в форуме скучновато.

M
На сайте с 02.10.2002
Offline
2
msa
#24
Дело в том, что предлагаемое НЕ НОВО.

Литература по классификации и смежным вопросам огромна.
Наиболее близко по теме: ассоциативные тезаурусы, коллокации,
матрицы смежности, корреляции, LSA и т.д. и т.п.

Есть продукты, см. например, NeuroK.

Проблема в том, что вся статистика и др. механистичные процедуры
неплохо формируют, максимум, верхнюю часть списка "ссылок".
Но все быстро рассыпается с уменьшением частотности и НИКТО
еще не сделал иного. По-моему, так и не сделает, из-за фундаментальной неполноты текстов.

Вот как раз я уверен , что это абсолютно новое и аналога ему нету.

AA
На сайте с 16.04.2001
Offline
70
#25

2bvd Борис, рад приветствовать.

2msa

То, что нет аналогов, не всегда плюс, хотя и не минус с p=1.

Давайте для начала разберем простейший пример, как ваша система получит морфологию (хотя бы, просто сведет лексему) слова "идти".

Пока я не увидел механизма, приводящего к отождествлению форм "шел" и "иду".

Без такого механизма уменьшить размерность матрицы (графа) смежности до реальных размеров в русском языке (или другом флективно богатом) нереально.

И, пожалуйста, подробнее про "темные" места в графе.

С уважением, Антонов Александр.
M
На сайте с 02.10.2002
Offline
2
msa
#26

"И, пожалуйста, подробнее про "темные" места в графе."

Еще раз о темных местах :

темным щитается слово которое 1 и более раз попадается во многих источниках инФорации .Этих слов будет довольно таки много. Постоянное динамическое выделение памяти , при встрече данного слова, под указатель на каждое последующее и предыдущее слово не даст нам желаемого результата.

Теперь другая ситуация:

У нас в дереве бутут слова , которые практически нигде не встречаются

(очень очень мало).Эти слова будут указывать на "темные" слова(тянуть нить).

Далее надо прикрутить к этому дереву симплекс (он нужен токо для ходьбы по темным местам дерева , я чуть выше рассказывал о каком именно виде симплекса идет речь).

Сама по себе это получается безполезная система.

Что бы она работала нужна "шляпа" - умный фильтр.

Этим фильтром ,по моим соображением будет, один из симплексных планов

(центроидный или D - оптимальный ).

"Давайте для начала разберем простейший пример, как ваша система получит морфологию (хотя бы, просто сведет лексему) слова "идти".

"

Как известно , любое слово можно представить в виде числа(прямое пребразование, хеш-функцией - это не столь важно).

В графе получаемые слова(по порядку) можно представить в виде некоторой фигуры .После фильтрации это будет уже не замкнутая фигура

а какая то ломаная линия с узлами , имеющая вход выход и промежуточную

реализацию.Берем похожую фразу " к примеру самый простой случай:: 1-я фраза(рассказ о каком то человеке и мемуар етого человека) ::"одинаково" шел он "одинаково":: 2-я фраза ::"одинаково" иду я "одинаково":: " проделываем с ней тоже самое и налаживаем дуг на друга. Имеем одинаковый вход и выход , а промежуток разный.Попутно будут определяться весовые коэфициенты(нужны для морфолоии ошибок синтаксиса и тд. , а также для разбиения на "сгустки" слов). При этом дописываем уравнение регресии ,верней ,делаем его более универсальным длы перемещения симплекса и поиска по дереву. Как обновлять уравнение я покамесь не буду рассказывать.

Получается своеобразная нейросеть.

AA
На сайте с 16.04.2001
Offline
70
#27
::"одинаково" шел он "одинаково":: 2-я фраза ::"одинаково" иду я "одинаково":: " проделываем с ней тоже самое и налаживаем дуг на друга. Имеем одинаковый вход и выход , а промежуток разный.

Просто и ясно.

Приведу контрпример (не менее простой, на мой взгляд):

берем Яндекс и задаем запрос "одинаково" http://yandex.ru/yandsearch?text=%EE%E4%E8%ED%E0%EA%EE%E2%EE.

Число встреч 1330107.

Приведу несколько с первой страницы.

"реклама одинаково полезна"

"йогурты одинаково полезны"

"должна одинаково волновать"

"лекарства одинаково полезны"

"относительное одинаково маздай"

"звучать одинаково с"

Согласно вашему алгоритму, сливаем в одну лексему "полезна-полезны-волновать-маздай-с", а также "реклама-йогурты-должна-лекарства-относительное-звучать".

Шум явно превысил допустимые пределы.

Т.е. в вашем алгоритме возникла естественная проблема разделения объектов.

M
На сайте с 02.10.2002
Offline
2
msa
#28

Так та не так.

В вашем примере входы и выходы разные , а середина одинакова .Машина

их различит без труда.Но ваш пример запроса безсмысленный даже для человека, а машина будет обладать примерно логикой "маленького" человека.В общем случае из вашего запроса мы получим одно "темное" слово в пересечении тем.

С уважением

"msa"

AiK
На сайте с 27.10.2000
Offline
257
AiK
#29
а машина будет обладать примерно логикой "маленького" человека.

выбери логикой значение словосочетания "тёмный замок" - премию получишь :)

И вообще я что-то никак понять не могу что ты собираешься классифицировать?

Если взять дохленький словарь на 10К слов, и построить даже не сочетания, а хотя бы перестановки из 4-х слов, то получится 416416712 миллионов словосочетаний. Проверять не устанешь? :D

AA
На сайте с 16.04.2001
Offline
70
#30

2AiK

Боюсь, что до этих трудностей алгоритм даже не дойдет.

2msa

Согласен, мой пример не совсем точный для одинаковых входа-выхода.

Тогда такой контрпример.

"Intel ХХХХХ точно" http://yandex.ru/yandsearch?text=Intel+%2F%2B2+%F2%EE%F7%ED%EE

"Intel совершенно точно"

"Intel позволяет точно"

"Intel уж точно"

"Intel прибывает точно"

"Intel еще точно"

"Intel попортить точно"

Согласно вашему алгоритму, сливаем в одну лексему "совершенно-позволяет-уж-прибывает-еще-попортить".

Опять нужно разделять объекты (проблема вашей "омонимии").

Уточните, пожалуйста, как модифицировать алгоритм, чтобы решить сию проблему.

А логики человека, даже маленького, у машины, извините, нет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий