- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Мне нужен скрипт, который будет определять тематику сайта (на нескольких языках). Сильно сомневаюсь, что есть готовые решения. А, может, есть? :)
Вот как я думаю реализовать эту штуку:
Условия на входе:
а) проверка тематики для нескольких языков
б) количество определяемых тематик =4
в) проверяемый сайт посвящен только одной теме
Решение:
1. Берем несколько (штук 5) сайтов по соответстующей тематике.
2. Берем текста с выбранных вручную страниц (страниц берем штук по 50 с сайта). Сливаем все текста в один и анализируем плотность слов/словосочетаний для текста, который получился на выходе. Получаем связки - ключ - плотность. Убираем маленькие слова (до 3-4 символов). Анализируем так пачки текста для каждой темы. Оставляем только ключи, которые встречаются с определенной плотностью - плотность подберем потом.
3. Потом удаляем пересекающиесмя ключи для всех 4-х тем (то есть отсеем общеупотребительные слова/словосочетания). На выходе, по идее остаются слова/словочетания, характерные для данной темы с плотностью.
Это получился фильтр для определения темы.
Когда чекаем тему конкретного сайта нам останется проанализировать плотность слов/словосочетаний для нескольких страниц, удалить общеупотребительные ключи. Потом сверяем слова с их плотностью с фильтрами и, если она в среднем равна (с погрешностью допустимой) или больше, то метим, что данный сайт - соответствующей тематики.
Хотелось бы узнать ваше мнение по поводу данного алгоритму. Может, есть идеи, как сделать определение тематики проще?
Спасибо всем, кто прочитал эту простыню и откоментит. :)
Очень интересный вопрос :) проблема намного сложнее, чем кажется на первый взгляд. У ведущих контекстных систем с автоматическим определение тематики не очень хорошо при их вложениях в это дело и опыте разработчиков.
Вопрос в том, можно ли как-то ее решить при приемлимом соотношении уровня сложности/затрат и надежности. Мне кажется, что данный алгоритм будет давать приемлимую мне вероятность определения - 50-80%. Но я не уверен. :)
Может, кто-то что-то слышал или сам делал?
Пробовать все надо :)
А то оказывается потом что пересекающихся ключей - слишком много.
Может просто считать цифру на основании ключей в тексте* их коэф. в тематике? А потом выбрать самую подходящую...
Я думаю, что готового варианта нет. Начать нужно с того, что для текста нет вообще однозначного значения тематики.
Потом эмпирическим путем делать, разочаровываться, анализировать, делать и так по циклу, пока не получите приемлемый результат.
Семантическое зеркало для русского языка - демка.
Не понял что за семантические связи и зачем они нужны. :o
В общем, примерно так я и собирался делать. Только категорий на порядок меньше у меня будет.
Семантическое зеркало для русского языка - демка.
Кстати рульная вещь - торкает!
По сабжу:
сам раздумываю над этой проблемой (в другом правда контексте). мое ИМХО начинать надо с упрощения, т.е. пытаться сначала понять к какому типу относиться текст: новости, научный, развлекательный и т.п. А потом подразделять на основе каких-то таблиц заточенных под указанные рубрики.
Хотя приведенный Kost-ом пример - работает неплохо.
В общем, буду делать как и написал, только для калибровки добавлю еще статьи общей тематики, чтобы выцепить группы ключевиков для соответствующих разделов.
Спасибо всем, кто участвовал в дискуссии.