- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
2AiK
Ссылка на статью по заканам Зипфа. Действительно, на citforum.ru, но самая релевантная ссылка сбоку. К вопросу о позиционировании
http://ftp.icmp.lviv.ua/pp/search_03.shtml
2Gray
Спасибо за разъяснение.
Кирилл, твоя ссылка не работает.
Рассказал бы о законе. Я мож статистику удобнее сделаю.</font>
Закон Зипфа (в менее общей форме -- закон Бенфорда, в более общей -- Мандельброта) отражает соотношение социально-зависимых (или природно-зависимых) величин и их ранга, определяемого как порядковый номер величины.
Закон Зипфа может применяться, например, для анализа текстов (идентификации авторства и определения жанра), для проверки уклонения от уплаты налогов, определения накруток счетчиков, анализа населения городов и т.д. Лично я успешно использовал закон Зипфа для определения того, "дописывает" ли моя телефонная компания в счет "левые" разговоры, или нет.
Вот некоторые статьи на эту тему:
Поиск в Интернете -- внутри и снаружи: описывает некоторые принципы анализа текстов, используемые поисковыми машинами.
Zipf Curves and Website Popularity: о распределении посещаемости страниц сайта и генераторов трафика.
Relationship Between Vocabulary, Text Length and Zipf's Law: Исследование соотношения числа слов тексте и длины текста для определения авторства и жанра.
Вот еще кое-что про закон Зипфа:
Benford's Law and Zipf's Law
The power of one
Zipf's Law
С уважением,
Александр Садовский.
[This message has been edited by funsad (edited 10-02-2001).]
Лично я успешно использовал закон Зипфа...
С уважением,
Александр Садовский.
</font>
Ловлю на слове. Меня учили не критиковать общепризнанных авторитетов, поэтому я просто задам несколько вопросов/высскажу утверждения которые следуют из закона нумбер оне:
1. Чем длиннее текст, тем вероятнее он соответствует закону Зипфа.
2. Чем беднее язык пишущего, тем менее он соответствует закону, т.к. число слов-паразитов (или стоп-слов) довольно велико, а остальные слова имеют примерно одну и ту же частоту, что соответствует в пределе прямой на графике.
3. Чем богаче язык пишущего (т.е. чем больше он использует синонимов), тем опять-таки он меньше соответствует закону, ибо "весомые" слова будут иметь примерно одну и ту же частоту, за счёт взаимозаменяемости.
Возможно закон и справедлив для скудного английского языка, но что-то слабо верится в действенность этого закона в применении к русскому языку. Кстати, закон подразумевает уменьшение частоты встречаемости второго слова в два раза (+\- константа), что на мой взгляд может быть справедливо по отношению к словарной статье, но ни как к сравнимому по объёму литературному произведению, ни тем паче к стихотворению.
Объясните пожалуйста, что я не так уразумел?
1. Чем длиннее текст, тем вероятнее он соответствует закону Зипфа.</font>
Безусловно.
На малых величинах этот закон (как, впрочем, любой статистический закон) в принципе не действует, так как слишком велика роль случайных отклонений. Именно поэтому в иллюстрациях к закону, как правило, участвуют понятия, измеряемые миллионными числами -- население городов, посетители крупных веб-сайтов и т.д.
Артем, у меня, к сожалению, нет под рукой достаточного количества "бедноязыковых" материалов для практической проверки данной гипотезы. Но могу порассуждать, чтобы в ответ на вышеизложенную гипотезу появилась другая гипотеза, опровергающая ее.
Рассмотрим нормального человека. Словарный запас любого человека делится на относительно небольшой активный (далее АЗ) и пассивный. В кратковременной памяти человек может держать небольшое число объектов (5..9), поэтому, описывая какие-либо события или факты, он будет подбирать слова из АЗ, относящиеся к объектам, которые находятся в фокусе его внимания. Аналогично, в фокусе внимания не могут находиться десятки слов из АЗ -- на этот фактор также воздействует объем кратковременной памяти. Чем больше употребляется какое-то слово, тем сильнее оно стремится закрепиться в состоянии активности. Поэтому следом за предлогами и вводными словами из АЗ (1-я группа) чаще всего будут встречаться слова из АЗ, относящиеся к описываемой теме (2-я группа). Затем по частоте будут идти общие слова из АЗ (3-я группа), и лишь в конце -- слова из пассивного запаса, ассоциирующиеся с описываемой темой (4-я группа).
Теперь рассмотрим человека с бедным словарным запасом. В чем заключается "бедность"? Как правило, это маленький пассивный запас и малый АЗ конкретных (не общих) слов (например, терминов), т.к. общие слова человек слышит постоянно (предлоги, "#ля" и пр.), значит 1-я группа слов будет в наличии непременно. Описывать тему хоть несколькими конкретными словами придется, иначе сообщение окажется бессмысленным. Следовательно, 2-я группа слов тоже будет присутствовать, просто "суперфилолог" подберет для описания слова, близкие к общим (вместо "архитектурное сооружение" -- "здание", "дом", а то и "эта фиговина"), и в меньшем количестве, компенсируемом частотой. Третья группа также должна присутствовать, так как редко кому удается с помощью "#ля" удачно связать термины "эта фиговина" и "та хреновина", просто 3-я группа будет бедной. А вот четвертой группы, возможно, и не будет.
Что получается? Хотя слова из 1-й группы будут употребляться чаще, чем человеком, владеющим языком, но за счет меньшего количества терминов во второй группе отрыв 2-й группы от 1-й будет не так велик. А третья группа (довольно маленькая) заменит третью и четвертую группу человека, владеющего языком. В итоге закон Зипфа будет верен.
Я только что случайно наткнулся на статью, в которой рассматриваются вопросы вхождения слов в АЗ в зависимости от того, какого типа это слово (неологизм, термин, обычное, архаизм и т.д.). Так вот, следующие за статьей таблицы и комментарии, несмотря на малое число испытуемых (30), в целом подтверждают законы Зипфа.
Здесь тоже есть свои ограничения, которые влияют на понимание и восприятие текста. Нельзя все заменять синонимами. Вот простой пример:
"Иван-царевич выстрелил из лука и пошел искать стрелу. Долго шел Иван, пока не увидел болото. Там сидела лягушка с его стрелой во рту. И говорит ей царевич: "Пасть порву, моргало выколю, заостренный стержень отдавай!" Земноводное и отвечает: "Не губи меня, сын царя, ведь по закону мне 25% найденного клада причитается". Задумался тут парень, и молвит пучеглазой: "Раз ты нашла стрелу, я должен на тебе жениться, следовательно, выкопанное сокровище -- это я, поэтому, четверть меня -- твои". Обрадовалась квакушка, и молвит парубку: "Согласна!" Но толкнули ее слова представителя власти в раздумья, а какую часть себя отдавать?
Со стихотворением мы уже разобрались -- у него слишком малый объем. Что касается языка, то, безусловно, отличия будут, но не столь значительные. Это ведь легко проверить.
С уважением,
Александр Садовский.
Хорошо, я попытаюсь найти статистику по наиболее часто употребляемым словам русского языка.
Пока что в Ваших рассуждениях я уловил некоторую неточность - именно из-за больших объёмов текста можно предположить, что речь ведётся не об одном объекте. Возмём к примеру "Войну и Мир". Я не могу себе позволить утверждать, например что это роман о войне и мире. Или к примеру возьмём энциклопедию. На первом месте будут стоять "стоп-слова", а частота всех остальных слов будет примерно одинакова.
Я собственно пытаюсь подвести Вас к мысли о пределах применимости "закона". Тот же закон Бойля-Мариотта справделив только в н.у. т.е. при комнатной температуре и давлении в одну атмосферу.
Я собственно пытаюсь подвести Вас к мысли о пределах применимости "закона". Тот же закон Бойля-Мариотта справделив только в н.у. т.е. при комнатной температуре и давлении в одну атмосферу.</font>
Безусловно, закон Зипфа нельзя назвать универсальным, и работает, как я уже сказал, он не всюду -- только большие и социально-зависимые числа. Есть еще ряд менее явных ограничений. Но это в данной ситуации не важно, главное, что он действует на большинстве текстов, и, следовательно, применим в поисковиках.
С уважением,
Александр Садовский.
Совершенно замечательная идея - автоматического анализа документов. PAN скачал, посмотрел. AiK, можно я напишу, что бы хотелось видеть в такой программе, типа "техзадания"? :0)
С уважением,
Андрей Иванов.
И даже нужно
Я правда обещать не могу, что выполню все пожелания быстро, но постараюсь.
Наверно в этом форуме обсуждать мою программу не имеет смысла (Сергей это тебе принимать решение), но это можно сделать либо почтой (адрес в профайле) или же в моём форуме.
Артем, признаться, не понял, почему в общем-то полезную программу нельзя обсуждать здесь.