- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Толи я неправильно рассказывал тут об алгоритме , толи вы отказываетесь понимать о чем идет речь.
В скором времени увидите первые шаги в "бинарном" варианте...
Всем спасибо за дискусию по данной теме.
С уважением
"msa"
В языке может быть и так. А программер не знающий математики - не программер. Надо же компьютеру как-то объяснить, что бывает, а чего- нет. Кстати, кожанным шаром начинали играть в футбол. И это был именно шар, а не сфера. А как насчёт литературных произведений?
Возьмём к примеру фразу "Я вынул из головы шар". Классика между прочим. Даниил Хармс.
Более менее внятных объяснений два. "Тёмный зАмок" и "тёмный замОк".
Или избитый пример "казнить нельзя помиловать"... Таких ситуаций будет не так уж и мало.
И уж если вспоминать детство, сколько раз Вам приходилось участвовать примерно в таком диалоге:
-Папа, а что такое слово ХХХ?
-А в каком контексте оно употреблено?
...
NB: вообще-то, любой програмный проект, который не собирается умереть так и не родившись, должен начинаться с ТЭО.
AiK
А вы не задумывались как вы понимаете все вокруг?
Пытаясь научить машину думать как думает "человек" на голых примерах это бред !!!! Без окружающих вы и я и все были бы "0" - нет информации. Машине можно это предоставить в неограниченом количестве(информацию).
Не надо лезть в глубь , поймите простое человеческое!!!!!
У нас есть фраза:
"Идет он по улице мимо вывески Intel"
Получаем:
1-е , 2-е слово и 3-е слово: получуем фигуру "3" .
Связи(поймите наконец то) :
"Ид" , "о" и "ули" отбросятся ,но приобретут силу кода повысится степепь полинома (а может быть ?).Отобразим этот закон в полиноме(не понадобиться выбросим). Строим связи (в сравнении с поступившей информацией); вот он симплекс.
В начале имеем линию потом треугольник потом 3-х гранную пирамиду и тд. Так вот вам и смысл.Похожи фигуры - оно ; не похожи не оно
, частично совпадают - схоже.
Но это еще далеко не все !!!
С уважением
"msa"
Мне кажется, я знаю, почему участники дискуссии не пронимают друг друга. Обсуждая численные методы решения задачи, они забыли об одном - постановка задачи так и не была сделана. Так что я предлагаю msa для начала сделать корректную постановку задачи в математических терминах (фраза "надо классифицировать информацию" - не постановка), а уж потом пытаться объяснить предлагаемый им метод ее решения.
AiK
Не заставляйте меня парировать чем нибудь вроде "программер, не знающий языка должен программировать что-нибудь другое".
Про кожаный шар, которым начинали играть в футбол, позвольте вам не поверить и отнести на сложности перевода с английского. По-русски это до сих пор звучит как "набивной мяч".
Хармс - это как раз поэтика абсурда, в том числе неправильных словоупотреблений. Вы еще магнитофонные пленки "Аквариума", прокрученные задом наперед, начните анализировать с точки зрения фонетики.
Я имел ввиду всего лишь то, что каждое слово относится к какому-либо семантическому полю. И количество комбинаций существенно снижается. Слово может употребляться только со словами того же поля. То, что ваш папа называл контекстом, а филологи называют почему-то коммерческим словом дистрибуция.
Были попытки вычислять семантические расстояния между словами. Т.е. между синонимами оно - ноль. Между словами одного устойчивого словосочетания - единица и т.д. в пределах одного предложения.
В вашем примере с замками (омографы) как раз ничего определять не надо. "Темный замОк" - не употребляется и притянуто за уши, как и предыдущий кожаный шар. Любой анализ частоты употребления ваших убедительных примеров на достаточном массиве текстов нас рассудит.
Яндекс "кожаный шар" - страниц 170 "кожаный мяч" - страниц 4007.
"Кожаный шар" употребляется спортивными журналистами в качестве метафоры или синонима - и только. "костяной мяч" вообще не встречается.
spark
Меньше всего хотел Вас задеть. Коль скоро это произошло, то прошу прощения.
Отвлечёмся немного от программирования (точнее от оптимизации), и посмотрим, что означает "построить связи между словами". Ограничимся словарным запасом в 1К слов - для среднестатического человека в повседневной жизни наверное хватит. Мы будем вынуждены заполнить матрицу 1К на 1К. А теперь чистая математика. Сколько пар слов мы должны проанализировать, чтобы заполнить матрицу? Очень просто n!\(2!*(n-2)!) Всего 499500 пар. Сколько времени уйдёт на то, чтобы проверить эти пары? А анализ больших объёмов текстов не очень помогает - отсутствие связи в исследованых текстах отнюдь не гарантирует того, что связи не бывает в принципе или она "слабая".
Особенно это касается "новояза".
Активный словарный запас культурного человека (случаи Эллочки людоедки не рассматриваются :)) 5000 слов. Но это так, к слову. Допускаю, что 1000 более частое явление.
Но словарь - парадигма. Мы же имеем дело с текстами - синтагмой. В них соблюдаются свои законы, в том числе статистические.
Распредилите этот словарь по Зипфу, и вы отсечете большую часть этой матрицы. Понятно, что во всех возможных вариантах сочетаний будут задействаны только слова первых рангов.
Немного из другой оперы, дистрибуция букв внутри слова. Но очень наглядно. В частотном словаре научно-технической лексики на 400 тыс. словоупотреблений всего 5 слов имеют исход (заканчиваются в словарной форме, без парадигмы) на "Ж".
В случае же устойчивых словосочетаний картина еще более простая, досточтимый сэр, но милостивый государь :)
Причем, на данный момент имеется обширнейшая лексикография русского языка, словари синонимов, упоминавшихся Вами омонимов, и словосочетаний - в том числе. Забейте этот словарь в машину, и в 80% случаев вам не останется, чего анализировать. Это я вам напоминаю, как носитель языка, такой шикарной лексикографии не имеющего :)
Ой не верю. (хроно)метраж, тираж, гараж, тоннаж, абордаж, экипаж, такелаж, вираж, зондаж, бандаж, дренаж... остановился только потому, что устал отделять "ненаучно-технические" слова. Я уже не говорю о сугубо технических терминах типа "барботаж".
И очень сомнительно, что мой словарный запас превышает размером Пушкинский... Вывод - словарь на 400К словоупотреблений строился на очень узкой тематике.
А что касается анализа, то вспоминается диалог из байки
- Вчера мать сдохла. Пришлось выбросить.
- Мозги-то хоть достал?
И беда в том, что вся терминология в IT заимстованная.
В итоге, филологи (многие из которых на мой взгляд занимаются филоложеством :D) наряду с примером перевода кэролловской Bread-and-butter-fly как баобабочки (вместо бутербродочки) дают перевод устойчивого(!) словосочетания database development как развитие базы данных. Филологи(!) допускают такую ошибку, потому что не понимают, что базы разрабатывают, а не развивают. А вы хотите чтобы программа сама научилась. На таких текстах - многому можно научится :)
Если вас интересует методика составления этого конкретного словаря, то слова с частотой меньше 10 просто отсеивались, как не характерные для данной тематики. Весь ваш ряд, от которого вы устали, остался в фильтрате. Кстати, я вот не уверен что тираж, вираж и абордаж такие уж научные слова :) Вы просто привели ряд слов французского происхождения :)
Что же до IT терминологии, то через некоторое время все устаканится, вы не переживайте. А чтобы филологи не допускали ошибок, после каждого из них при нормальной процедуре сидит научно-технический редактор, который знает предмет. Как только появится терминологический стандарт, ошибок станет меньше.
А что до Кэролла, то игры ума и слов нужно переводить не дословно, а адекватно и баобабочка более уместна, чем ваш неологизм :).
ЗЫ Совсем уж флейм, но если Вам не чужды проблемы переводов, переведите фразу
The quick brown fox jumps over a lazy dog :)