Алгоритм определения тематики сайтов (решение)

aresstokrat
На сайте с 31.07.2007
Offline
54
#41

парсинг ЯК здесь не интересен, именно потому что он вручную наполняется, здесь интересен алгоритм именно робота яндекса

покупаю сайты, только СДЛ
Z1
На сайте с 09.12.2005
Offline
164
#42

Насколько я понял, у ТС задача определять тематику любой конкретной страницы, а не понять как работает я.робот.

Igorrok
На сайте с 28.08.2007
Offline
117
#43

Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.

Истина где-то рядом...
XPraptor
На сайте с 15.10.2004
Offline
333
#44

ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).

И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.

Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.

kotofeich
На сайте с 25.03.2009
Offline
28
#45
sun99:
Возможно Вам стоит использовать то, чем пользуются (пользовались) в Яндексе.

mystem

Спасибо. Не знал.

kotofeich добавил 21.05.2009 в 21:19

Igorrok:
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.

Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.

kotofeich добавил 21.05.2009 в 21:20

XPraptor:
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.

Фактически все пока не нужны. Сейчас обкатываю только на нужных мне тематиках.

Expert Theme (http://extheme.ru) - определение тематики любых сайтов, текстов и страниц
SJ
На сайте с 16.03.2008
Offline
78
#46
zweroboy1:
Как вариант более-менее быстрого получения словаря с привязкой к тематике -
1. Парсинг ЯК (либо какого-то другого качественного каталога), создание базы вида УРЛ - тематика.
2. Заход робота на морду каждого из этих сайтов. Парсинг. В базу сохраняем все слова, кроме анкоров внешних ссылок. Словам из титлов, стронгов, мета-дескрипшнов придаём несколько больший вес. После прохождения этого шага имеем базу вида: Слово - Сайт - Число вхождений (Вес) - Тематика.
3. Анализ полученной базы. Делим все слова из базы на три категории:
3.1. Стоп-слова - они часто появляются во всех без исключения тематиках.
3.2. Средние слова - они часто встречаются в одной категории, но иногда попадаются и в других.
3.3. Хорошие слова - часто встречаются в какой-то конкретной рубрике, и практически не встречаются - в других.
4. Заходим на неизвестную страницу, опять же парсим её, анализируем найденные слова. В первую очередь обращаем внимание на хорошие слова из пункта 3.3. Думаю, этого будет достаточно в подавляющем большинстве случаев для правильного определения тематики.


В общем-то, реализуется такое за недельку без особого напряга одним челом.
Плюсы - не надо заморачиваться с морфологией и составлением базы вручную.
Алгоритм ТС будет скорей всего точнее этого, но он имеет большие шансы загнуться на стадии составления словаря с весами :)

Мысли очень правильные 🍻

Замечу только:

- морфология таки нужна - я все привожу к нормальной форме (тогда и совпадений больше). Можно простым стеммингом побаловаться.

- на ЯК хорошие результаты у меня дает даже просто парсинг каталога (тайтл + описание), без заходов на главную страницу и т.д. Тайтл с двойным коэф.

sokol_jack добавил 21.05.2009 в 21:27

kotofeich:
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.

А я - почти уверен.

Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).

Да и "эталонная" база у робота - почему бы и не ЯК?

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
kotofeich
На сайте с 25.03.2009
Offline
28
#47
sokol_jack добавил 21.05.2009 в 21:27

А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?

Можно использовать и ЯК, суть моего алгоритма от этого не меняется. Я использую ашманова, потому что сразу вижу какие ключевики какой тематике соответствуют.

kotofeich добавил 21.05.2009 в 23:33

P.S. Скрипт уже реализован. Сейчас хорошо распознает три тематики: Интернет-ресурсы, Создание и продвижение сайтов, Поисковые системы. Обучение новой тематике занимает где-то 10 минут.

dlyanachalas
На сайте с 15.09.2006
Offline
693
#48
kotofeich:
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6

Вы нашли не "активацию нейрона", а просто сумму весов.

Если вы действительно изучали нейронные сети, то должны понимать разницу ;)

OPTIMER
На сайте с 05.01.2006
Offline
497
#49

Что-то я не понял, зачем смешивать тематику страницы и сайта. Это разные вещи. Определяются по-разному. Есть алгоритмы, например уже заезженный показ тематической рекламы адсенс, директ. Есть тематика сайта по Я.К и так далее. Я думаю, что да, можно группу страниц одинаково идентифицировать одного сайта. Но может и проще это делается (тематика сайта, если она и существует), что нету такого подсчета тошноты слов тематики и т.п.

оО Раскрутка сайтов без абон. платы, единоразово от 100.000 руб.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий