Продолжение - "класификатор" - Поисковые технологии - Практические вопросы оптимизации - Форум об интернет-маркетинге

msa · 2002-10-07T11:28:13.0000000Z

Господа давайте забудем прошедшие "ехидные" дебаты и обратимся к делу. Предлагаю подумать головой. Имеется простое дерево , которое помимо указателей "для поиска" имеет еще два указателя (предыдущее и последующее слово).Это дерево уже построено. Проблема в том , что в нем много так называемых "черных зон" , где связь теряется (сотни таких узлов-слов).Что бы успешно проходить эти участки нужен "умный" алгоритм (65% всего проэкта). Моя версия : Мне кажется ,что в данном случае можно привинтить алгоритм симплекса (поиск в n-мерном пространстве оптимального соотношения n компонентов ). Но есть одна проблемка.Поиск то как раз не случайный , а целенаправленый.Следственно надо задать свою зависимость- уникальную последовательность.Как мне кажется выход в димамической генерации связующего ключа. К примеру : имеем несколько фраз "он идет по улице" "в киеве идет дождь". получаем темное слово "идет" .По сгенерированому ключу со слова , к примеру, "он" получаем указатель на слово "по".Далее строим теугольник (в нашем случае) и получаем слово "идет". Что скажете господа?

66

Ashmanov

19 октября 2002, 20:30

#61

AIK, они над Вами подшучивают: указанные фразы издревле служат для тестирования программистом качества воспроизведения букв на экране или на принтере - они гарантированно содержат все буквы алфавита (в данных примерах - кроме Ъ).

Что касается обсуждаемой здесь матрицы инцидентности слов, то набор сколько-нибудь стоящей статистики, похоже, нереален - не хватает текстов.

Матрица на самом деле имеет объём просто N*N, где N - число слов в языке, то есть "квадрат словаря Зализняка" - 100,000 в квадрате, 10 в 10-й степени.

Когда я этим занимался в МедиаЛингве, получалось, что статистики, достаточной для отеделения устойчивых словосочетаний от свободных сочетаний слов, просто не наберёшь на существующем объёме электронных текстов.

Матрица окажется почти нулевой, а наличие в клетке ненулевого значения не будет говорить ни о чём, кроме случайности.

И это при том, что вообще говоря, по сторонам такой матрицы должны стоять лексемы (корни), а не словоформы, поскольку словоформ миллионы и с ними вообще не справиться.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

21 октября 2002, 07:16

#62

AIK, они над Вами подшучивают:

И в мыслях не было. Пример из жизни. Видел эту фразу дословно переведенной в каком-то из графических редакторов с руссифицированным интерфейсом.

Тот случай, когда переводчики переусердствовали.

AA

70

AlexA

21 октября 2002, 08:02

#63

Ашманов:
Что касается обсуждаемой здесь матрицы инцидентности слов, то набор сколько-нибудь стоящей статистики, похоже, нереален - не хватает текстов.
Матрица на самом деле имеет объём просто N*N, где N - число слов в языке

Игорь, в данном случае зависит от задачи. Сразу заниматься полной матрицей нет необходимости. Начать можно с более частотных слов, даже со словоформ. Тогда матрица получится вполне обозримой. Однако, возникают задачи выделения "стартового" множества, а также сведения лексем (я и хотел выяснить, как msa хочет последннюю решать). Но решать их можно, поэтому ставить крест на матрице сочетаемости я бы не стал.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

22 октября 2002, 07:46

#64

Когда я этим занимался в МедиаЛингве, получалось, что статистики, достаточной для отеделения устойчивых словосочетаний от свободных сочетаний слов, просто не наберёшь на существующем объёме электронных текстов.

Игорь, извините а нельзя ли как-нибудь обозначить этот объем? Желательно не в мегабайтах а в тысячах слов, но и в байтах сойдет.

Немного выше по топику я ссылался на некий частотный словарь, и AIK решил, что это моя выборка. У меня записей под руками не было, поэтому полностью расшифрую его сейчас.

Комплексный частотный словарь русской научной и технической лексики: 3047 слов, Денисов П.Н., Морковкин В.В., Сафьян Ю.А. - М., 1978

Массив 400 000 словоупотреблений

200 частей - выборки по 2000 словоупотреблений

отбирались слова с частотой не менее 10

тексты отбирались по 11 (по-моему) разделам.

Посмотрите на год издания, вспомните перфокарты и грохочущие "Мински", и снимите шляпу.

Может не текстов мало, а методика их отбора должна быть другой?

У меня вот есть смутные подозрения, что тематическую направленность текста можно определять, например, по частоте буквы П :) Это так, для примера.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

130

spark

23 октября 2002, 10:55

#65

AlexA

Начать можно с более частотных слов, даже со словоформ.

Вот есть такая релевантная ссылка

http://www.artint.ru/projects/frqlist/frqlist-en.asp

The average word length is 5.28 characters.

The average sentence length is 10.38 words.

1000 most frequent lemmas cover 64.0708% of word forms in texts.

2000 most frequent lemmas cover 71.9521% of word forms in texts.

3000 most frequent lemmas cover 76.6824% of word forms in texts.

5000 most frequent lemmas cover 82.0604% of word forms in texts.

Частотный словарь русский, 1М слов, можно скачать в зипе 32К слов с частотами более одного случая на миллион.

Обзор семинара Леонида Гроховского Недавние исследования поведения пользователей Optimization 2010: круглый стол

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Продолжение - "класификатор"