Требуется механизм определения тематики страницы

12
greenwood
На сайте с 08.09.2003
Offline
519
#11

мдаа .... очень интересно

я бы такое то-же бы не прочь иметь

Не уж это так в самом деле дорого ?

через обычную релевантность контента на страничке разве нальзя определить ?

Zonk
На сайте с 19.05.2006
Offline
321
#12
greenwood:
мдаа .... очень интересно
я бы такое то-же бы не прочь иметь
Не уж это так в самом деле дорого ?
через обычную релевантность контента на страничке разве нальзя определить ?

тоже хотел бы сделать такое для себя... Пока не очень представляю масштабность задачи, поэтому точка зрения Гринвуда мне пока более близка.

P.S. То, что сейчас у Бегуна, определяет тематику, мягко говоря, не очень хорошо...

pelvis
На сайте с 01.09.2005
Offline
345
#13

SubAqua, заставьте бота показывать объявление по тайтлу. Это один из вариатнов. Второй - анализ плотности слов в контенте.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
PHPExpert
На сайте с 04.02.2006
Offline
104
#14

Создать базу тематик с ключевыми словами для них.

Парсить страницы, выбирать наиболее популярные в них слова (штук 10 хватит) и сравнивать с ключевиками в базе тематик.

Навигатор
На сайте с 15.07.2006
Offline
156
#15

Мои десять копеек:

---

Нету ни времени ни желания сейчас этим заниматься, но я бы пожалуй сделал так:

---

1. Необходимо парсить главные страницы (хотя бы главные) сайтов из ЯКа.

2. Контент сайтов из одной категории объединяем и выбираем наиболее часто встречающиеся слова и словосочетания.

3. Отсеиваем слова и словосочетания которые часто встречаются в других категориях. Остаются слова и категории характеризующие тематику.

// Это мы получили базу данных по тематикам. Обновлять ее или вообще не нужно, или редко.

4. Сравниваем нужный контент с нашей базой и определяем из какой тематики наибольшее совпадение. Делаем вывод о тематике.

*. Можно пренебречь словоформами вообще или сравнивать словоформы по каким-нить методикам сравнения, например, Левинштейна на степень схожести.

---

Авось кому пригодятся мысли...

Шерегеш (http://gesh.info/) - зимний горнолыжный курорт
oLL
На сайте с 27.03.2003
Offline
90
oLL
#16

Если делать простую систему - то можно объединить советы от pelvis и PHPExpert.

-Создать базу тематик с ключевыми словами для них.

-Заставить бота показывать объявление по тайтлу.

Если же сложную - то автоконтекст от Ашманова :)

...То, что сейчас у Бегуна, определяет тематику, мягко говоря, не очень хорошо...

Но определяет. И лучшего пока нет, наверное - к сожалению. А разрабатывалось это достаточно долго и достаточно сильной командой.

...да можно попробовать за пару сотен соорудить кое-что...

Сильно сказано. Респект и уважуха, камрад.

Умное продвижение сайтов SmartSEO ( http://www.smartseo.ru/ ) | Lj ( http://koshkin.livejournal.com/ ) | SEO - хайку ( http://community.livejournal.com/ru_seo/151529.html ) | аудит сайтов ( http://www.site-audit.ru )
Навигатор
На сайте с 15.07.2006
Offline
156
#17

Ну про базу тематик это конечно понятно, но это ведь самое сложное...

Ручками создавать ?

С каждой минутой убеждаюсь в правоте своего метода...

W
На сайте с 05.09.2006
Offline
87
#18

Навигатор, исходя из реальности, а не из фантазий, я имел в виду именно примерно такой алгоритм...

... тут могла быть ваша реклама ... ))
W
На сайте с 05.09.2006
Offline
87
#19

Сео-паразиты, класс скриптов, живущих на результатах выдачи поисковиков... дают более-менее стоящие результаты при приемлимых затратах...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий