solnikolay

Рейтинг
56
Регистрация
13.07.2007
gsk87:
А зачем делать разбиение?? Взять ту же базу пастухова, делаешь выборку по нужным тебе кеям, потом чистишь эту выборку - вот они нужные кеи. В разбиении все равно будут присутствовать не нужные кеи. Кеи берутся под конкретную задачу, т.е узкотематичные.

Гммм, а нужные кеи для конкретной тематики вы откуда возьмете?

Gnome:
Соль идеи выборки делать не по прямому вхождению, а тематические. Пишем софтину под это дело)))
Слова-то уже есть...

И по какому принципу собрались отбирать?

Оливковый:
а что, ни кто сам не может определить тематику кея, по слову porn решить что речь идет о бизнесе? в чем соль идеи?

Возьмите 1К кеев и определите у них тематику, потом повторите это же на 10К кеев, 100К кеев и т.д. - тогда поймете БЕЗ раздумий.

Предлагают идти от обратного: выбирать не конкретный кей и определять тематику, а выбрать тематику и вытащить все кеи.

response:
но для кучи существительных все-таки можно (авто, кредит, сиськи, етс.)

А например для двухсловника "авто gps" какая тематика будет? Вы там с количеством тематик не запутаетесь?

Дор - это в большенстве своем текстовая информация, не противоречащая законодательству РФ (исключая прямое копирование).

Так что не тем копаете ;)

Тоже думал над этим. Вот только признаков нема. Есть ведь общетематические кеи (например "купить"), есть более узкие (например, "купить авто". Вот только его можно отнести и к авто тематике, и к бизнес тематике).

Хотя сервис полезный. :)

response:
так, либо я туплю, либо это тот же марков, только в профиль - с анализом не только соседних слов, но и более удаленных. я прально идею уловил?

а что такое сеогенератор статей? или в поиск? :o

Что-то типа...

SEOGENDEMO поищите на форуме - связь не позволяет перекинуть прогу.

response:
что-то в этом роде.. хм.. а как в итоге компоновать-то станете все вместе? и по каким корпусам собирать инфу? по локальным, или по инету? по-моему слишком сложно пока ) выше задумка попроще в реализации, при том, что думается даст много контента.

Главное не компоновка (в базе хранятся счетчики взаимного расположения слов, следовательно переходя от слова к слову вы будете получать цепочку более-менее связанных слов), а предел, когда надо заканчивать предложение.

Информация берется из уже имеющихся статей (точно также обучается и человек - читает и общается с другими).

Сложно, не спорю. Но пример, приведенный выше, больше похож на уже имеющийся СЕОгенератор статей.

Arbeiten:
Так ноль это абсолютная еденица и озночает пустота, а математическим языком - пустое множество

Это не репа где минусы есть:)

Зато в экономике есть - расход называется ;)

response:
вот, например, интересная статья: АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ СПОРТИВНОГО КОММЕНТАРИЯ. Если не математик, как арбайтен, то наверняка оценишь потенциал подхода :) Просто надо чуть шире воспринять идею.

Математик ;)

А насчет идеи: что-то наподобии гугловского алгоритма расшифровки сокращений - вычеленяются слова, которые наиболее часто встречаются в окружении сокращения и таким образом составляется описание (что-то в этом роде).

Всего: 716