Требуется механизм определения тематики страницы

519

greenwood

25 октября 2006, 07:47

#11

мдаа .... очень интересно

я бы такое то-же бы не прочь иметь

Не уж это так в самом деле дорого ?

через обычную релевантность контента на страничке разве нальзя определить ?

321

Zonk

25 октября 2006, 07:53

#12

greenwood:
мдаа .... очень интересно
я бы такое то-же бы не прочь иметь
Не уж это так в самом деле дорого ?
через обычную релевантность контента на страничке разве нальзя определить ?

тоже хотел бы сделать такое для себя... Пока не очень представляю масштабность задачи, поэтому точка зрения Гринвуда мне пока более близка.

P.S. То, что сейчас у Бегуна, определяет тематику, мягко говоря, не очень хорошо...

345

pelvis

25 октября 2006, 08:07

#13

SubAqua, заставьте бота показывать объявление по тайтлу. Это один из вариатнов. Второй - анализ плотности слов в контенте.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

104

PHPExpert

25 октября 2006, 08:12

#14

Создать базу тематик с ключевыми словами для них.

Парсить страницы, выбирать наиболее популярные в них слова (штук 10 хватит) и сравнивать с ключевиками в базе тематик.

156

Навигатор

25 октября 2006, 10:07

#15

Мои десять копеек:

---

Нету ни времени ни желания сейчас этим заниматься, но я бы пожалуй сделал так:

---

1. Необходимо парсить главные страницы (хотя бы главные) сайтов из ЯКа.

2. Контент сайтов из одной категории объединяем и выбираем наиболее часто встречающиеся слова и словосочетания.

3. Отсеиваем слова и словосочетания которые часто встречаются в других категориях. Остаются слова и категории характеризующие тематику.

// Это мы получили базу данных по тематикам. Обновлять ее или вообще не нужно, или редко.

4. Сравниваем нужный контент с нашей базой и определяем из какой тематики наибольшее совпадение. Делаем вывод о тематике.

*. Можно пренебречь словоформами вообще или сравнивать словоформы по каким-нить методикам сравнения, например, Левинштейна на степень схожести.

---

Авось кому пригодятся мысли...

Шерегеш (http://gesh.info/) - зимний горнолыжный курорт

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

90

oLL

25 октября 2006, 10:34

#16

Если делать простую систему - то можно объединить советы от pelvis и PHPExpert.

-Создать базу тематик с ключевыми словами для них.

-Заставить бота показывать объявление по тайтлу.

Если же сложную - то автоконтекст от Ашманова :)

...То, что сейчас у Бегуна, определяет тематику, мягко говоря, не очень хорошо...

Но определяет. И лучшего пока нет, наверное - к сожалению. А разрабатывалось это достаточно долго и достаточно сильной командой.

...да можно попробовать за пару сотен соорудить кое-что...

Сильно сказано. Респект и уважуха, камрад.

Умное продвижение сайтов SmartSEO ( http://www.smartseo.ru/ ) | Lj ( http://koshkin.livejournal.com/ ) | SEO - хайку ( http://community.livejournal.com/ru_seo/151529.html ) | аудит сайтов ( http://www.site-audit.ru )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

156

Навигатор

25 октября 2006, 12:05

#17

Ну про базу тематик это конечно понятно, но это ведь самое сложное...

Ручками создавать ?

С каждой минутой убеждаюсь в правоте своего метода...

W

87

wgdiler

25 октября 2006, 13:26

#18

Навигатор, исходя из реальности, а не из фантазий, я имел в виду именно примерно такой алгоритм...

... тут могла быть ваша реклама ... ))

W

87

wgdiler

25 октября 2006, 13:29

#19

Сео-паразиты, класс скриптов, живущих на результатах выдачи поисковиков... дают более-менее стоящие результаты при приемлимых затратах...

Зачем быть уникальным в мире, где все можно скопировать

Курс биткоина превысил $50 тысяч