- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте все!
Для знакомства мне хотелось бы расспросить знающих людей о применяющихся простых формулах при выявлении семантических связей, не погружаясь в теорию графов и нейронных сетей.
Здесь на форуме уже упоминалась формула Зипфа, которая должна работать на больших числах (в сети, кстати, находится статья с критикой на "нумерологов", использующих эти законы). В январе я провел соответствующие исследования, и пришел к выводу, что этот закон если и работает, то только для определенных областей. Взятые массивы философских текстов - несколько печатных томов одного автора - не показали удовлетворительных результатов. В случае моего исследования количество уникальных слов было около
60,000. Правда без учета морфологии.
Общее число слов более 200,000.
Предлагаемая константа для русского языка при этом работает для очень узкой области, так что о применимости закона для исследуемых текстов не может быть и речи.
Проводил ли кто-нибудь такие же исследования на подобных массивах?
Теперь другая формула: см. н-р, http://dit.perm.ru/eup98/lec3.htm
здесь для поднятия рейтинга значимых слов предлагается расчет инверсной частоты термина i = log (количество документов в базе данных / количество документов с термином i).
Возникает вопрос - что брать за количество документов в случае больших текстов? Абзац? Главу? просто число слов, н-р, 500? Или нечто другое?
Подобные этим вопросы периодически возникают, но не с кем обсудить. Может, здесь на форуме найдутся знающие люди, кто сталкивался на практике или хотя бы в теории с простыми алгоритмами для определения весовых характеристик слов и других проблем, возникающих при разработке поисковых механизмов и выявлении семантических связей в текстах.
Определение ключевых терминов - интересная тема. Определение их по Зипфу (или другому априорному распределению) из "яблочных" соображений (сердцевина-высокочастотные не нужна, кожура-низкочастотные - тоже) не совсем корректно.
Можно предложить другое соображение - относительную встречаемость (плотность встречаемости слова в выборке/плотность в некоей большой базе).
Подробнее см. http://zoom.galaktika.ru
Этот критерий (чем больше, тем более значим данный термин) дает неплохие результаты.
Правда, он неустойчив для малых частот.
Спасибо, Александр,
С большим интересом познакомился со всеми материалами сайта, хотя из прикладных вещей нашел только один абзац:
...
Исходя из вышеизложенного, более удачным критерием будет вероятность выполнения нулевой гипотезы. Нулевая гипотеза [9] состоит в том, что слово в нашей базе распределено абсолютно равномерно. Превышение же частоты встречаемости данного слова в нашей выборке происходит абсолютно случайно. Тогда мы можем посчитать вероятность выполнения такого исхода.
Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.
Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость? Мне это нужно для оценки применимости критерия при работе с текстами.
И еще вопрос: нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?
Исследовали ли вы как влияет авторская стилистика на этот критерий?
Прошу прощения, если мои вопросы неточны.
Несколько общих слов о "Галактика-Зум".
Проблема избытка информации действительно уже набила оскомину, и предлагаемое решение уникально. Я лично просто порадовался, что люди работают и находят красивые решения. Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным
.
Сергей.
Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.
Мы понимаем эти термины, как одно и то же.
Исследовали ли вы, на каких минимальных абсолютных частотах этот критерий проявляет неустойчивость?
Неустойчивость проявляется заметно при встречаемости термина на уровне 1-25 раз (в выборке или в базе), естественно, с убыванием эффекта с возрастанием частоты.
нулевая гипотеза хорошо выполнима для многих тысяч отдельных документов. А как в случае текстов малой библиотеки? По объему словаря оба случая совпадают, но тематическая выраженность будет совершенно различной: в первом случае скорее всего "размытая", во втором случае - "узконаправленная", повлияет ли это на выполнимость нулевой гипотезы?
Четкой границы для общего объема базы не существует. Критерий работает "индивидуально" для каждого слова (словосочетания). Отсюда следует различные границы требуемого объема для разных слов. Можно говорить лишь об общем качестве получаемого "информационного портрета".
А для этого узконаправленная база гораздо лучше, чем общая.
Для эффективной работы метода нужна база минимум 5-10Мб (экспериментальная база - "автомобильной" тематики).
Было бы здорово, если со временем у "Галактики" появилась демо-версия, доступная простым смертным
Сергей, демо-версия доступна на том же сайте http://zoom.galaktika.ru (кнопочки "Энциклопедия", "Демонстрация"). Демо-база: СМИ за июль-декабрь 1998г.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.
Насколько я понимаю, плотность встречаемости слова и относительная частота встречаемости слова - это разные характеристики. В обсуждаемом контексте второе кажется точнее.
Мы понимаем эти термины, как одно и то же.
я могу ошибаться, но относительная частота встречаемости слова - это не вес (не плотность, не матожидание, как прямозависимая), а нечто, похожее на дисперсию ...
Относительная встречаемость слова (словосочетания) может быть определена, как отношение плотностей встречаемости в выборке и базе.
В этом случае, это - разные понятия.
Но чаще под этим термином понимают отношение числа встреч слова к общему числу встреч всех слов (иначе говоря, плотность).
Конечно, в любом случае получаемая случайная величина не аналогична оценке дисперсии какой-либо простой (равномерной, нормальной и т.д.) случайной величины.
Конечно, там не все опции (нет выделения аномалий, определения похожих, графиков, кластеров), но суть посмотреть (и поиграться) можно.
Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...
Попробовал сегодня. Работает быстро, простой и понятный интерфейс. Мне как пользователю понравилось, как разработчик я вижу за этим большой труд.
Действительно, сегодня обе кнопки работают, но вчера утром я безуспешно пытался посмотреть, а что же там, за ними, думал, сайт на реконструкции...
Демо-сайт вместе с обработчиком запросов к базе (около 300 тыс. документов, 1Гб текста) стоит на довольно слабенькой машинке (celeron-433) так что периодически отключается. Хотя с другой стороны, показывает работоспособность технологии на таком недорогом оборудовании.
Возвращаясь к относительной встречаемости слова:
Понятно, Александр, что на низких частотах наблюдается разного рода неустойчивость. А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?
Нулевая гипотеза здесь должна соблюдаться безукоризненно.
А со стороны другой границы? В случае, скажем, служебных слов? Используете ли вы в своей системе стоп-словарь? Работает ли предложенный критерий без стоп-словаря?
В этом случае метод работает. И, естественно, лучше, чем для низкочастотных слов. Стоп-словарь не используется.
Честно говоря, с некоторых пор (лет 8 назад) я противник стоп-словаря, как метода, в чем-то волюнтаристского, апеллирующего к абсолютным свойствам языка.
Есть аналог - поиск по точной словоформе (часто русскоязычные поисковики реализуют только поиск целой лексемы).
Хотя, любая реальная система - это набор компромиссов. Чем-то всегда приходится жертвовать ради сроков и производительности.
Вам, Сергей, это тоже известно.