- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.
http://www.ashmanov.com/tech/semantic/demo/
http://www.linkfeedator.ru/?task=tematika
http://www.samborsky.com/sources/thematic/
Если бы еще была одна общая классификация по тематикам...
Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)
Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)
Дык а что там за "тема" для нас, программистов?
Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.
Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.
Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.
Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.
http://www.ashmanov.com/tech/semantic/demo/
http://www.linkfeedator.ru/?task=tematika
http://www.samborsky.com/sources/thematic/
а если вот так делать, берем сайт, копируем весь код главной страницы, запихиваем его Decorator 3.00 удалем весь html код, оставшийся текст вставляем в анализатор текста Text analyzer и уже по результатам количества часто употребляющихся слов определяем тематику сайта. ))) ну это пример если сайтов парочка.
Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.
Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.
Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.
Есть мысли как это на деле реализовать?
Все просто :)
1. Пишите парсилку сайтов yaca, собираете тематики и сниппеты/главные сайтов в них.
2. Обучаете ваш рубрикатор. Например, определяете вероятность встреч тех или иных слов в тематике. Это проще всего. Попутно детали (типа необходимости учета стоп-слов) увидите сами.
3. Делаете функцию определения вероятности тематики для произвольного текста.
4. Тестите и дорабатываете вашу методику пока не будет вас устраивать.
Еще одна интересная версия.
Так можно и Ли.ру по категория спарсить и получить базу кеев по тематикам) или купить готовые.
Тут собственно хозяин-барин. Главное чтобы был каталог и обучающая выборка достаточного объема. Можно и по Dmoz рубрикатор сделать.
Пожалуй, сварганю. Благо, и библиотека для работы с ключевиками и вероятностями их появления с прошлых наработок есть. Посмотрим, что получится.
Предполагается возможность ввода списка url-ов, задания требуемой тематики и отсеивания url-ов заданной тематики. Предполагается также выбор между определением тематики страницы и определением тематики сайта по нескольким страницам.
Способов определения тематики будет 2.
А распарсим для начала yaca.
autosubmit добавил 24.02.2010 в 15:34
Приступил. Составил минимальный список тематик.
Зарегистрировал тестовый поддомен. Перенёс туда "болванку" с библиотеками.
Приступил к написанию парсера yaca.
autosubmit добавил 24.02.2010 в 17:11
Парсер yaca вместе с загрузкой страниц сайтов, работой со словами и сохранением данных готов. Теперь надо его отладить...
autosubmit добавил 24.02.2010 в 17:40
Приступаю к отладке парсера yaca.
autosubmit добавил 24.02.2010 в 18:25
из-за проблем с интернетом (пакеты не доходят до хостинга) придётся продолжить позже.
Все это давно есть ;)
Но удовлетворенноть, увы.
Во-первых у серьезных сайтов часто на главной нет текста основного.
Во-вторых, тематика есть как у сайта, так и у страницы отдельно (и есть версия, что яндекс следит за тематикой именно страницы, ну и связь страницы страницы с сайтом).
В-третьих, если по телу страницы у вас тематика - животноводство, а Тайтл и Дискрипшн и Кейвордс утверждают, что вы - недвижимость, отдавать предпочтения мета-тегам или телу?
Ну и опять же, как было сказано выше - структура рубрик у всех разная...
Но нереальных задач, конечно, нет ;)