- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я конечно понимаю, что нельзя точно определить тематику докумета машинніми средствами, кроме анализа всего контента по большому словарю :D, что не целесообразно, когда таких документов много.
Есть к примеру док, мне нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики? :gm:
ак определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики
вам зачем определять то? Это задача поискового робота - вот и оставьте ему эту головную боль.
Без словарей и привязки слов к тематике - никак вообще; даже элементарный фильтр на мат в гостевой книге/форуме без словаря не сделать, а Вы говорите об определении тематики документов.
А уж если определять по словарю, то просто посчитать частоту встречания слов из Вашего словаря в анализируемом документе с учетом словоформ и без учета регистра написания; и суммировать частоты встречания слов внутри одной тематики. Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей... Это самый примитивный способ, который может быть довольно эффективным при наличии огромного словаря и грамотной привязке всех слов из него к определенным темам.
Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.
AdultGO,
Как правило для этого и существуют каталоги в поисковых системах для описания их определённой тематики и определение географической принадлежности сайта. А анализировать текст каждой страницы нужны достаточно большие ресуры и большое кол-во времени для анализа тематики. Возможно в будуйщем что то такое и будет а пока - каталоги.
определение соответствия заданной тематике - один из видов рубрикации/классификации
существует два основных подхода - прямого лексического описания (набор слов и словосочетаний, возможно, с весами и с логикой) и машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)
в зависимости от постановки задачи более эффективным оказывается тот или иной метод (или их гибрид).
если идет речь формирования тематической подборки из Интернет - сначала формируется коллекция с запасом (обходом сайтов, каталогов, исполнением кучки запросов в ПМ), затем фильтруется.
Литература обширная. Читайте.
Sla_Dom! Вот и пытаемся научит его определению приблизтельного сответствия тематики. А каталоги это конечно хорошо, но всё же. в каталогах тоже нужно определять тематику на угад.. не все же сайты одинаковой структуры.
P.S. отлаживаем робота для поисковоЙ маленькой системки...
Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.
snoopckuu, не поверите, но уже реализовано и работает. Если Вы хоть отдаленно имеете отношение к программированию (в чем я сильно сомневаюсь), то слово Perl Вам может быть знакомо; как разбить текст по словам, Вам подскажут старшие товарищи; как подсчитать количество слов в участке текста/файле, Вы возможно, догадаетесь сами. А что дальше делать со статистикой слов и словарем, я вкратце уже описал, более детально описывать алгоритм я не собираюсь.
P.S. Я ведущий программист одной известной московской фирмы,а Вы не провидец - это очевидно. Ничего личного, без обид.
Eddie, :). Интересно увидить это на деле, особенно как это будет работать с хотя бы 1 млн документов.
Выводы у вас отличные.
Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей...
Какие еще способы существуют - именно алгоритмы - не подскажете? Этот метод не очень удовлетворяет скоростью работы, да и составить словарь с разбивкой по тематикам задача достаточно ресурсоемкая.
машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)
А про это где можно почитать подробнее?
snoopckuu, это для внутреннего пользования, так что показать не смогу. Там нет 1 млн документов, но порядка 500 тысяч есть.
harolt, в первом сообщении этого топика речь не шла о скорости работы. Это действительно не быстро, но это легко реализуемо.
А как составить словарь с разбивкой - это наше ноу-хау.
Eddie, поверьте, всяких ноу-хау у нас и у самих хватает :)
Вопрос был про другие алгоритмы. Я так понимаю, другого решения не нашлось?