Существует ли рабочий сервис определения тематики сайта (вне ЯКа)

12 3
[Удален]
3092

Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.

http://www.ashmanov.com/tech/semantic/demo/

http://www.linkfeedator.ru/?task=tematika

http://www.samborsky.com/sources/thematic/

SJ
На сайте с 16.03.2008
Offline
78
#1

Если бы еще была одна общая классификация по тематикам...

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
[Удален]
#2

Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)

SJ
На сайте с 16.03.2008
Offline
78
#3
russ25:
Согласен. Но имхо, каждый раз с новыми алгоритмами все больше и больше уходит внимание тематическим ссылкам, имхо хотя бы программы с большими погрешностями, которая определяла. Вот Вам тема программисты;)

Дык а что там за "тема" для нас, программистов?

Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.

Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.

Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.

FANTiK123
На сайте с 30.12.2008
Offline
76
#4
russ25:
Существует ли рабочий сервис определения тематики сайта (вне ЯКа)? Какие нашел не подходят, или имеют большие неточности в определении тематики сайта.

http://www.ashmanov.com/tech/semantic/demo/
http://www.linkfeedator.ru/?task=tematika
http://www.samborsky.com/sources/thematic/

а если вот так делать, берем сайт, копируем весь код главной страницы, запихиваем его Decorator 3.00 удалем весь html код, оставшийся текст вставляем в анализатор текста Text analyzer и уже по результатам количества часто употребляющихся слов определяем тематику сайта. ))) ну это пример если сайтов парочка.

Универсальный парсер контента для создания интернет-магазинов (http://sbfactory.ru/?p=600) и не только ;)
[Удален]
#5
Дык а что там за "тема" для нас, программистов?
Если есть набор тематик и сайтов, которые в них попадают, то за день пишется софт.
Например, для ЯК вполне хватает собрать описания сайтов из каталога и построить для слов, которые в них входят вектора "попадения в тематику". Даже не обязательно анализировать тексты на главной.
Потом любой текст берем, на слова бьем, считаем результатирующий вектор причастности к тематике. Вполне хорошие результаты.

Есть мысли как это на деле реализовать?

Hannibal
На сайте с 17.01.2010
Offline
3
#6

Все просто :)

1. Пишите парсилку сайтов yaca, собираете тематики и сниппеты/главные сайтов в них.

2. Обучаете ваш рубрикатор. Например, определяете вероятность встреч тех или иных слов в тематике. Это проще всего. Попутно детали (типа необходимости учета стоп-слов) увидите сами.

3. Делаете функцию определения вероятности тематики для произвольного текста.

4. Тестите и дорабатываете вашу методику пока не будет вас устраивать.

[Удален]
#7

Еще одна интересная версия.

Так можно и Ли.ру по категория спарсить и получить базу кеев по тематикам) или купить готовые.

Hannibal
На сайте с 17.01.2010
Offline
3
#8

Тут собственно хозяин-барин. Главное чтобы был каталог и обучающая выборка достаточного объема. Можно и по Dmoz рубрикатор сделать.

[Удален]
#9

Пожалуй, сварганю. Благо, и библиотека для работы с ключевиками и вероятностями их появления с прошлых наработок есть. Посмотрим, что получится.

Предполагается возможность ввода списка url-ов, задания требуемой тематики и отсеивания url-ов заданной тематики. Предполагается также выбор между определением тематики страницы и определением тематики сайта по нескольким страницам.

Способов определения тематики будет 2.

А распарсим для начала yaca.

autosubmit добавил 24.02.2010 в 15:34

Приступил. Составил минимальный список тематик.

Зарегистрировал тестовый поддомен. Перенёс туда "болванку" с библиотеками.

Приступил к написанию парсера yaca.

autosubmit добавил 24.02.2010 в 17:11

Парсер yaca вместе с загрузкой страниц сайтов, работой со словами и сохранением данных готов. Теперь надо его отладить...

autosubmit добавил 24.02.2010 в 17:40

Приступаю к отладке парсера yaca.

autosubmit добавил 24.02.2010 в 18:25

из-за проблем с интернетом (пакеты не доходят до хостинга) придётся продолжить позже.

Seolib
На сайте с 03.07.2008
Offline
159
#10

Все это давно есть ;)

Но удовлетворенноть, увы.

Во-первых у серьезных сайтов часто на главной нет текста основного.

Во-вторых, тематика есть как у сайта, так и у страницы отдельно (и есть версия, что яндекс следит за тематикой именно страницы, ну и связь страницы страницы с сайтом).

В-третьих, если по телу страницы у вас тематика - животноводство, а Тайтл и Дискрипшн и Кейвордс утверждают, что вы - недвижимость, отдавать предпочтения мета-тегам или телу?

Ну и опять же, как было сказано выше - структура рубрик у всех разная...

Но нереальных задач, конечно, нет ;)

Проверка позиций от 3 копеек за запрос! (https://seolib.ru/info/positions?from=se) - Гостевой доступ, группировка запросов, финансовый отчет, анализ посетителей из поиска.
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий