Интеллектуальный отбор новостей

K
На сайте с 10.01.2007
Offline
13
1371

Где можно узнать про то, как можно интеллектуальным образом выбирать новостные заголовки от сми по ключевым словам, таким как убийства,грабеж..?

D5
На сайте с 01.06.2004
Offline
51
#1

Например вот: http://en.wikipedia.org/wiki/Naive_Bayes_classifier

Вцелом работает неплохо, если процент неверных определений не особо критичен.

Есть вроде более точные методы типа SVM (Support Vector Machine) и др, но их я пока не пробовал только присматриваюсь.

Программирование сайтов (http://lindir.ru)
K
На сайте с 10.01.2007
Offline
13
#2

По-русски что-нибудь есть интересное?

D5
На сайте с 01.06.2004
Offline
51
#3

хорошая коллекция ссылок разных. Внизу есть ссылки по IR

http://www.miralab.ru/tools/service/

морфология

http://www.aot.ru/

стемминг

http://linguist.nm.ru/stemka/stemka.html

Стемминг этот кстати вполне себе работает. Портировал его на php и юзал в поиске по сайту. Хорошее решение на сильно ограниченном хостинге (читай дешевом ;)

ps. А Вам мб подойдет просто нечеткий поиск в строке по шаблонам без заморочек с классификацией и тп.

K
На сайте с 10.01.2007
Offline
13
#4

А возможно ли написать на PHP робота, который будет лазить по сайтам сми, читать их rss и выбирать новости и добавлять их в свою бд..

F
На сайте с 12.03.2007
Offline
85
#5
kodermax:
А возможно ли написать на PHP робота, который будет лазить по сайтам сми, читать их rss и выбирать новости и добавлять их в свою бд..

Ничего сверх трудного тут нету, только аназиз новостей наверное будет ресурсоемким.

Как начать тренироваться (http://max-body.ru/quick_start.html), Бодибилдинг форум (http://fatal-energy.com/). Обменяюсь/куплю ссылками со статей (или статьями) с сайтами бодибилдинг/фитнес тематики.
S
На сайте с 21.08.2006
Offline
18
#6

Делать сайт на чужих новостях бессмысленно.

В августе прошлого года я запустил скрипт, который из RSS-лент загружает новости и картинки в мою базу, а дальше новости просто публиковались на сайте (все было красиво, по разделам, с комментариями посетителей)

Траффик был только с Яндекса. С Гугля зашло человек, может 10 за пол-года.

А в конце апреля этого года и с Яндекса посетителей обрубило.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий