- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Мне нужен скрипт, который будет определять тематику сайта (на нескольких языках). Сильно сомневаюсь, что есть готовые решения. А, может, есть? :)
Вот как я думаю реализовать эту штуку:
Условия на входе:
а) проверка тематики для нескольких языков
б) количество определяемых тематик =4
в) проверяемый сайт посвящен только одной теме
Решение:
1. Берем несколько (штук 5) сайтов по соответстующей тематике.
2. Берем текста с выбранных вручную страниц (страниц берем штук по 50 с сайта). Сливаем все текста в один и анализируем плотность слов/словосочетаний для текста, который получился на выходе. Получаем связки - ключ - плотность. Убираем маленькие слова (до 3-4 символов). Анализируем так пачки текста для каждой темы. Оставляем только ключи, которые встречаются с определенной плотностью - плотность подберем потом.
3. Потом удаляем пересекающиесмя ключи для всех 4-х тем (то есть отсеем общеупотребительные слова/словосочетания). На выходе, по идее остаются слова/словочетания, характерные для данной темы с плотностью.
Это получился фильтр для определения темы.
Когда чекаем тему конкретного сайта нам останется проанализировать плотность слов/словосочетаний для нескольких страниц, удалить общеупотребительные ключи. Потом сверяем слова с их плотностью с фильтрами и, если она в среднем равна (с погрешностью допустимой) или больше, то метим, что данный сайт - соответствующей тематики.
Хотелось бы узнать ваше мнение по поводу данного алгоритму. Может, есть идеи, как сделать определение тематики проще?
Спасибо всем, кто прочитал эту простыню и откоментит. :)
Очень интересный вопрос :) проблема намного сложнее, чем кажется на первый взгляд. У ведущих контекстных систем с автоматическим определение тематики не очень хорошо при их вложениях в это дело и опыте разработчиков.
Вопрос в том, можно ли как-то ее решить при приемлимом соотношении уровня сложности/затрат и надежности. Мне кажется, что данный алгоритм будет давать приемлимую мне вероятность определения - 50-80%. Но я не уверен. :)
Может, кто-то что-то слышал или сам делал?
Пробовать все надо :)
А то оказывается потом что пересекающихся ключей - слишком много.
Может просто считать цифру на основании ключей в тексте* их коэф. в тематике? А потом выбрать самую подходящую...
Я думаю, что готового варианта нет. Начать нужно с того, что для текста нет вообще однозначного значения тематики.
Потом эмпирическим путем делать, разочаровываться, анализировать, делать и так по циклу, пока не получите приемлемый результат.
Семантическое зеркало для русского языка - демка.
Не понял что за семантические связи и зачем они нужны. :o
В общем, примерно так я и собирался делать. Только категорий на порядок меньше у меня будет.
Семантическое зеркало для русского языка - демка.
Кстати рульная вещь - торкает!
По сабжу:
сам раздумываю над этой проблемой (в другом правда контексте). мое ИМХО начинать надо с упрощения, т.е. пытаться сначала понять к какому типу относиться текст: новости, научный, развлекательный и т.п. А потом подразделять на основе каких-то таблиц заточенных под указанные рубрики.
Хотя приведенный Kost-ом пример - работает неплохо.
В общем, буду делать как и написал, только для калибровки добавлю еще статьи общей тематики, чтобы выцепить группы ключевиков для соответствующих разделов.
Спасибо всем, кто участвовал в дискуссии.