Продолжение - "класификатор"

M
На сайте с 02.10.2002
Offline
2
msa
#41

Толи я неправильно рассказывал тут об алгоритме , толи вы отказываетесь понимать о чем идет речь.

В скором времени увидите первые шаги в "бинарном" варианте...

Всем спасибо за дискусию по данной теме.

С уважением

"msa"

AiK
На сайте с 27.10.2000
Offline
257
AiK
#42
В языке приводимая Вами математика неуместна.

В языке может быть и так. А программер не знающий математики - не программер. Надо же компьютеру как-то объяснить, что бывает, а чего- нет. Кстати, кожанным шаром начинали играть в футбол. И это был именно шар, а не сфера. А как насчёт литературных произведений?

Возьмём к примеру фразу "Я вынул из головы шар". Классика между прочим. Даниил Хармс.

Насчет "тёмный замок" машина найдет сотни применений данного словосочетания, наткнувшись один раз на более менее внятное обьяснение.

Более менее внятных объяснений два. "Тёмный зАмок" и "тёмный замОк".

Или избитый пример "казнить нельзя помиловать"... Таких ситуаций будет не так уж и мало.

И уж если вспоминать детство, сколько раз Вам приходилось участвовать примерно в таком диалоге:

-Папа, а что такое слово ХХХ?

-А в каком контексте оно употреблено?

...

NB: вообще-то, любой програмный проект, который не собирается умереть так и не родившись, должен начинаться с ТЭО.

M
На сайте с 02.10.2002
Offline
2
msa
#43

AiK

А вы не задумывались как вы понимаете все вокруг?

Пытаясь научить машину думать как думает "человек" на голых примерах это бред !!!! Без окружающих вы и я и все были бы "0" - нет информации. Машине можно это предоставить в неограниченом количестве(информацию).

Не надо лезть в глубь , поймите простое человеческое!!!!!

У нас есть фраза:

"Идет он по улице мимо вывески Intel"

Получаем:

1-е , 2-е слово и 3-е слово: получуем фигуру "3" .

Связи(поймите наконец то) :

"Ид" , "о" и "ули" отбросятся ,но приобретут силу кода повысится степепь полинома (а может быть ?).Отобразим этот закон в полиноме(не понадобиться выбросим). Строим связи (в сравнении с поступившей информацией); вот он симплекс.

В начале имеем линию потом треугольник потом 3-х гранную пирамиду и тд. Так вот вам и смысл.Похожи фигуры - оно ; не похожи не оно

, частично совпадают - схоже.

Но это еще далеко не все !!!

С уважением

"msa"

wolf
На сайте с 13.03.2001
Offline
1183
#44

Мне кажется, я знаю, почему участники дискуссии не пронимают друг друга. Обсуждая численные методы решения задачи, они забыли об одном - постановка задачи так и не была сделана. Так что я предлагаю msa для начала сделать корректную постановку задачи в математических терминах (фраза "надо классифицировать информацию" - не постановка), а уж потом пытаться объяснить предлагаемый им метод ее решения.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
spark
На сайте с 24.01.2001
Offline
130
#45

AiK

Не заставляйте меня парировать чем нибудь вроде "программер, не знающий языка должен программировать что-нибудь другое".

Про кожаный шар, которым начинали играть в футбол, позвольте вам не поверить и отнести на сложности перевода с английского. По-русски это до сих пор звучит как "набивной мяч".

Хармс - это как раз поэтика абсурда, в том числе неправильных словоупотреблений. Вы еще магнитофонные пленки "Аквариума", прокрученные задом наперед, начните анализировать с точки зрения фонетики.

Я имел ввиду всего лишь то, что каждое слово относится к какому-либо семантическому полю. И количество комбинаций существенно снижается. Слово может употребляться только со словами того же поля. То, что ваш папа называл контекстом, а филологи называют почему-то коммерческим словом дистрибуция.

Были попытки вычислять семантические расстояния между словами. Т.е. между синонимами оно - ноль. Между словами одного устойчивого словосочетания - единица и т.д. в пределах одного предложения.

В вашем примере с замками (омографы) как раз ничего определять не надо. "Темный замОк" - не употребляется и притянуто за уши, как и предыдущий кожаный шар. Любой анализ частоты употребления ваших убедительных примеров на достаточном массиве текстов нас рассудит.

Яндекс "кожаный шар" - страниц 170 "кожаный мяч" - страниц 4007.

"Кожаный шар" употребляется спортивными журналистами в качестве метафоры или синонима - и только. "костяной мяч" вообще не встречается.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#46

spark

Меньше всего хотел Вас задеть. Коль скоро это произошло, то прошу прощения.

Отвлечёмся немного от программирования (точнее от оптимизации), и посмотрим, что означает "построить связи между словами". Ограничимся словарным запасом в 1К слов - для среднестатического человека в повседневной жизни наверное хватит. Мы будем вынуждены заполнить матрицу 1К на 1К. А теперь чистая математика. Сколько пар слов мы должны проанализировать, чтобы заполнить матрицу? Очень просто n!\(2!*(n-2)!) Всего 499500 пар. Сколько времени уйдёт на то, чтобы проверить эти пары? А анализ больших объёмов текстов не очень помогает - отсутствие связи в исследованых текстах отнюдь не гарантирует того, что связи не бывает в принципе или она "слабая".

Особенно это касается "новояза".

spark
На сайте с 24.01.2001
Offline
130
#47

Активный словарный запас культурного человека (случаи Эллочки людоедки не рассматриваются :)) 5000 слов. Но это так, к слову. Допускаю, что 1000 более частое явление.

Но словарь - парадигма. Мы же имеем дело с текстами - синтагмой. В них соблюдаются свои законы, в том числе статистические.

Распредилите этот словарь по Зипфу, и вы отсечете большую часть этой матрицы. Понятно, что во всех возможных вариантах сочетаний будут задействаны только слова первых рангов.

Немного из другой оперы, дистрибуция букв внутри слова. Но очень наглядно. В частотном словаре научно-технической лексики на 400 тыс. словоупотреблений всего 5 слов имеют исход (заканчиваются в словарной форме, без парадигмы) на "Ж".

В случае же устойчивых словосочетаний картина еще более простая, досточтимый сэр, но милостивый государь :)

Причем, на данный момент имеется обширнейшая лексикография русского языка, словари синонимов, упоминавшихся Вами омонимов, и словосочетаний - в том числе. Забейте этот словарь в машину, и в 80% случаев вам не останется, чего анализировать. Это я вам напоминаю, как носитель языка, такой шикарной лексикографии не имеющего :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#48
В частотном словаре научно-технической лексики на 400 тыс. словоупотреблений всего 5 слов имеют исход (заканчиваются в словарной форме, без парадигмы) на "Ж".

Ой не верю. (хроно)метраж, тираж, гараж, тоннаж, абордаж, экипаж, такелаж, вираж, зондаж, бандаж, дренаж... остановился только потому, что устал отделять "ненаучно-технические" слова. Я уже не говорю о сугубо технических терминах типа "барботаж".

И очень сомнительно, что мой словарный запас превышает размером Пушкинский... Вывод - словарь на 400К словоупотреблений строился на очень узкой тематике.

А что касается анализа, то вспоминается диалог из байки

- Вчера мать сдохла. Пришлось выбросить.

- Мозги-то хоть достал?

И беда в том, что вся терминология в IT заимстованная.

В итоге, филологи (многие из которых на мой взгляд занимаются филоложеством :D) наряду с примером перевода кэролловской Bread-and-butter-fly как баобабочки (вместо бутербродочки) дают перевод устойчивого(!) словосочетания database development как развитие базы данных. Филологи(!) допускают такую ошибку, потому что не понимают, что базы разрабатывают, а не развивают. А вы хотите чтобы программа сама научилась. На таких текстах - многому можно научится :)

spark
На сайте с 24.01.2001
Offline
130
#49

Если вас интересует методика составления этого конкретного словаря, то слова с частотой меньше 10 просто отсеивались, как не характерные для данной тематики. Весь ваш ряд, от которого вы устали, остался в фильтрате. Кстати, я вот не уверен что тираж, вираж и абордаж такие уж научные слова :) Вы просто привели ряд слов французского происхождения :)

Что же до IT терминологии, то через некоторое время все устаканится, вы не переживайте. А чтобы филологи не допускали ошибок, после каждого из них при нормальной процедуре сидит научно-технический редактор, который знает предмет. Как только появится терминологический стандарт, ошибок станет меньше.

А что до Кэролла, то игры ума и слов нужно переводить не дословно, а адекватно и баобабочка более уместна, чем ваш неологизм :).

spark
На сайте с 24.01.2001
Offline
130
#50

ЗЫ Совсем уж флейм, но если Вам не чужды проблемы переводов, переведите фразу

The quick brown fox jumps over a lazy dog :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий