- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.
http://www.ashmanov.com/tech/semantic/demo/
http://www.linkfeedator.ru/?task=tematika
http://www.samborsky.com/sources/thematic/
Если бы еще была одна общая классификация по тематикам...
Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)
Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)
Дык а что там за "тема" для нас, программистов?
Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.
Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.
Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.
Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.
http://www.ashmanov.com/tech/semantic/demo/
http://www.linkfeedator.ru/?task=tematika
http://www.samborsky.com/sources/thematic/
а если вот так делать, берем сайт, копируем весь код главной страницы, запихиваем его Decorator 3.00 удалем весь html код, оставшийся текст вставляем в анализатор текста Text analyzer и уже по результатам количества часто употребляющихся слов определяем тематику сайта. ))) ну это пример если сайтов парочка.
Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.
Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.
Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.
Есть мысли как это на деле реализовать?
Все просто :)
1. Пишите парсилку сайтов yaca, собираете тематики и сниппеты/главные сайтов в них.
2. Обучаете ваш рубрикатор. Например, определяете вероятность встреч тех или иных слов в тематике. Это проще всего. Попутно детали (типа необходимости учета стоп-слов) увидите сами.
3. Делаете функцию определения вероятности тематики для произвольного текста.
4. Тестите и дорабатываете вашу методику пока не будет вас устраивать.
Еще одна интересная версия.
Так можно и Ли.ру по категория спарсить и получить базу кеев по тематикам) или купить готовые.
Тут собственно хозяин-барин. Главное чтобы был каталог и обучающая выборка достаточного объема. Можно и по Dmoz рубрикатор сделать.
Пожалуй, сварганю. Благо, и библиотека для работы с ключевиками и вероятностями их появления с прошлых наработок есть. Посмотрим, что получится.
Предполагается возможность ввода списка url-ов, задания требуемой тематики и отсеивания url-ов заданной тематики. Предполагается также выбор между определением тематики страницы и определением тематики сайта по нескольким страницам.
Способов определения тематики будет 2.
А распарсим для начала yaca.
autosubmit добавил 24.02.2010 в 15:34
Приступил. Составил минимальный список тематик.
Зарегистрировал тестовый поддомен. Перенёс туда "болванку" с библиотеками.
Приступил к написанию парсера yaca.
autosubmit добавил 24.02.2010 в 17:11
Парсер yaca вместе с загрузкой страниц сайтов, работой со словами и сохранением данных готов. Теперь надо его отладить...
autosubmit добавил 24.02.2010 в 17:40
Приступаю к отладке парсера yaca.
autosubmit добавил 24.02.2010 в 18:25
из-за проблем с интернетом (пакеты не доходят до хостинга) придётся продолжить позже.
Все это давно есть ;)
Но удовлетворенноть, увы.
Во-первых у серьезных сайтов часто на главной нет текста основного.
Во-вторых, тематика есть как у сайта, так и у страницы отдельно (и есть версия, что яндекс следит за тематикой именно страницы, ну и связь страницы страницы с сайтом).
В-третьих, если по телу страницы у вас тематика - животноводство, а Тайтл и Дискрипшн и Кейвордс утверждают, что вы - недвижимость, отдавать предпочтения мета-тегам или телу?
Ну и опять же, как было сказано выше - структура рубрик у всех разная...
Но нереальных задач, конечно, нет ;)