Анализатор документов

K
На сайте с 02.02.2001
Offline
2
#31

2AiK

Ссылка на статью по заканам Зипфа. Действительно, на citforum.ru, но самая релевантная ссылка сбоку. К вопросу о позиционировании http://ftp.icmp.lviv.ua/pp/search_03.shtml

2Gray

Спасибо за разъяснение.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#32

Кирилл, твоя ссылка не работает.

F
На сайте с 15.11.2000
Offline
116
#33

<font face="Verdana" size="2">Originally posted by AiK:

Рассказал бы о законе. Я мож статистику удобнее сделаю.
</font>

Закон Зипфа (в менее общей форме -- закон Бенфорда, в более общей -- Мандельброта) отражает соотношение социально-зависимых (или природно-зависимых) величин и их ранга, определяемого как порядковый номер величины.

Закон Зипфа может применяться, например, для анализа текстов (идентификации авторства и определения жанра), для проверки уклонения от уплаты налогов, определения накруток счетчиков, анализа населения городов и т.д. Лично я успешно использовал закон Зипфа для определения того, "дописывает" ли моя телефонная компания в счет "левые" разговоры, или нет.

Вот некоторые статьи на эту тему:

Поиск в Интернете -- внутри и снаружи: описывает некоторые принципы анализа текстов, используемые поисковыми машинами.

Zipf Curves and Website Popularity: о распределении посещаемости страниц сайта и генераторов трафика.

Relationship Between Vocabulary, Text Length and Zipf's Law: Исследование соотношения числа слов тексте и длины текста для определения авторства и жанра.

Вот еще кое-что про закон Зипфа:

Benford's Law and Zipf's Law

The power of one

Zipf's Law

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 10-02-2001).]

AiK
На сайте с 27.10.2000
Offline
257
AiK
#34

<font face="Verdana" size="2">Originally posted by funsad:

Лично я успешно использовал закон Зипфа...
С уважением,
Александр Садовский.
</font>

Ловлю на слове. Меня учили не критиковать общепризнанных авторитетов, поэтому я просто задам несколько вопросов/высскажу утверждения которые следуют из закона нумбер оне:

1. Чем длиннее текст, тем вероятнее он соответствует закону Зипфа.

2. Чем беднее язык пишущего, тем менее он соответствует закону, т.к. число слов-паразитов (или стоп-слов) довольно велико, а остальные слова имеют примерно одну и ту же частоту, что соответствует в пределе прямой на графике.

3. Чем богаче язык пишущего (т.е. чем больше он использует синонимов), тем опять-таки он меньше соответствует закону, ибо "весомые" слова будут иметь примерно одну и ту же частоту, за счёт взаимозаменяемости.

Возможно закон и справедлив для скудного английского языка, но что-то слабо верится в действенность этого закона в применении к русскому языку. Кстати, закон подразумевает уменьшение частоты встречаемости второго слова в два раза (+\- константа), что на мой взгляд может быть справедливо по отношению к словарной статье, но ни как к сравнимому по объёму литературному произведению, ни тем паче к стихотворению.

Объясните пожалуйста, что я не так уразумел?

F
На сайте с 15.11.2000
Offline
116
#35

<font face="Verdana" size="2">Originally posted by AiK:
1. Чем длиннее текст, тем вероятнее он соответствует закону Зипфа.</font>

Безусловно. На малых величинах этот закон (как, впрочем, любой статистический закон) в принципе не действует, так как слишком велика роль случайных отклонений. Именно поэтому в иллюстрациях к закону, как правило, участвуют понятия, измеряемые миллионными числами -- население городов, посетители крупных веб-сайтов и т.д.

<font face="Verdana" size="2">2. Чем беднее язык пишущего, тем менее он соответствует закону, т.к. число слов-паразитов (или стоп-слов) довольно велико, а остальные слова имеют примерно одну и ту же частоту, что соответствует в пределе прямой на графике.</font>

Артем, у меня, к сожалению, нет под рукой достаточного количества "бедноязыковых" материалов для практической проверки данной гипотезы. Но могу порассуждать, чтобы в ответ на вышеизложенную гипотезу появилась другая гипотеза, опровергающая ее.

Рассмотрим нормального человека. Словарный запас любого человека делится на относительно небольшой активный (далее АЗ) и пассивный. В кратковременной памяти человек может держать небольшое число объектов (5..9), поэтому, описывая какие-либо события или факты, он будет подбирать слова из АЗ, относящиеся к объектам, которые находятся в фокусе его внимания. Аналогично, в фокусе внимания не могут находиться десятки слов из АЗ -- на этот фактор также воздействует объем кратковременной памяти. Чем больше употребляется какое-то слово, тем сильнее оно стремится закрепиться в состоянии активности. Поэтому следом за предлогами и вводными словами из АЗ (1-я группа) чаще всего будут встречаться слова из АЗ, относящиеся к описываемой теме (2-я группа). Затем по частоте будут идти общие слова из АЗ (3-я группа), и лишь в конце -- слова из пассивного запаса, ассоциирующиеся с описываемой темой (4-я группа).

Теперь рассмотрим человека с бедным словарным запасом. В чем заключается "бедность"? Как правило, это маленький пассивный запас и малый АЗ конкретных (не общих) слов (например, терминов), т.к. общие слова человек слышит постоянно (предлоги, "#ля" и пр.), значит 1-я группа слов будет в наличии непременно. Описывать тему хоть несколькими конкретными словами придется, иначе сообщение окажется бессмысленным. Следовательно, 2-я группа слов тоже будет присутствовать, просто "суперфилолог" подберет для описания слова, близкие к общим (вместо "архитектурное сооружение" -- "здание", "дом", а то и "эта фиговина"), и в меньшем количестве, компенсируемом частотой. Третья группа также должна присутствовать, так как редко кому удается с помощью "#ля" удачно связать термины "эта фиговина" и "та хреновина", просто 3-я группа будет бедной. А вот четвертой группы, возможно, и не будет.

Что получается? Хотя слова из 1-й группы будут употребляться чаще, чем человеком, владеющим языком, но за счет меньшего количества терминов во второй группе отрыв 2-й группы от 1-й будет не так велик. А третья группа (довольно маленькая) заменит третью и четвертую группу человека, владеющего языком. В итоге закон Зипфа будет верен.

Я только что случайно наткнулся на статью, в которой рассматриваются вопросы вхождения слов в АЗ в зависимости от того, какого типа это слово (неологизм, термин, обычное, архаизм и т.д.). Так вот, следующие за статьей таблицы и комментарии, несмотря на малое число испытуемых (30), в целом подтверждают законы Зипфа.

<font face="Verdana" size="2">3. Чем богаче язык пишущего (т.е. чем больше он использует синонимов), тем опять-таки он меньше соответствует закону, ибо "весомые" слова будут иметь примерно одну и ту же частоту, за счёт взаимозаменяемости.</font>

Здесь тоже есть свои ограничения, которые влияют на понимание и восприятие текста. Нельзя все заменять синонимами. Вот простой пример:

"Иван-царевич выстрелил из лука и пошел искать стрелу. Долго шел Иван, пока не увидел болото. Там сидела лягушка с его стрелой во рту. И говорит ей царевич: "Пасть порву, моргало выколю, заостренный стержень отдавай!" Земноводное и отвечает: "Не губи меня, сын царя, ведь по закону мне 25% найденного клада причитается". Задумался тут парень, и молвит пучеглазой: "Раз ты нашла стрелу, я должен на тебе жениться, следовательно, выкопанное сокровище -- это я, поэтому, четверть меня -- твои". Обрадовалась квакушка, и молвит парубку: "Согласна!" Но толкнули ее слова представителя власти в раздумья, а какую часть себя отдавать?

<font face="Verdana" size="2">Возможно закон и справедлив для скудного английского языка, но что-то слабо верится в действенность этого закона в применении к русскому языку. Кстати, закон подразумевает уменьшение частоты встречаемости второго слова в два раза (+\- константа), что на мой взгляд может быть справедливо по отношению к словарной статье, но ни как к сравнимому по объёму литературному произведению, ни тем паче к стихотворению.</font>

Со стихотворением мы уже разобрались -- у него слишком малый объем. Что касается языка, то, безусловно, отличия будут, но не столь значительные. Это ведь легко проверить.

С уважением,

Александр Садовский.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#36

Хорошо, я попытаюсь найти статистику по наиболее часто употребляемым словам русского языка.

Пока что в Ваших рассуждениях я уловил некоторую неточность - именно из-за больших объёмов текста можно предположить, что речь ведётся не об одном объекте. Возмём к примеру "Войну и Мир". Я не могу себе позволить утверждать, например что это роман о войне и мире. Или к примеру возьмём энциклопедию. На первом месте будут стоять "стоп-слова", а частота всех остальных слов будет примерно одинакова.

Я собственно пытаюсь подвести Вас к мысли о пределах применимости "закона". Тот же закон Бойля-Мариотта справделив только в н.у. т.е. при комнатной температуре и давлении в одну атмосферу.

F
На сайте с 15.11.2000
Offline
116
#37

<font face="Verdana" size="2">Originally posted by AiK:
Я собственно пытаюсь подвести Вас к мысли о пределах применимости "закона". Тот же закон Бойля-Мариотта справделив только в н.у. т.е. при комнатной температуре и давлении в одну атмосферу.</font>

Безусловно, закон Зипфа нельзя назвать универсальным, и работает, как я уже сказал, он не всюду -- только большие и социально-зависимые числа. Есть еще ряд менее явных ограничений. Но это в данной ситуации не важно, главное, что он действует на большинстве текстов, и, следовательно, применим в поисковиках.

С уважением,

Александр Садовский.

A
На сайте с 23.11.2000
Offline
166
#38

Совершенно замечательная идея - автоматического анализа документов. PAN скачал, посмотрел. AiK, можно я напишу, что бы хотелось видеть в такой программе, типа "техзадания"? :0)

С уважением,

Андрей Иванов.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#39

И даже нужно

Я правда обещать не могу, что выполню все пожелания быстро, но постараюсь.

Наверно в этом форуме обсуждать мою программу не имеет смысла (Сергей это тебе принимать решение), но это можно сделать либо почтой (адрес в профайле) или же в моём форуме.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#40

Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий