морфология ключевиков.

123
B
На сайте с 07.07.2006
Offline
147
#11
mr. Evil:
лучше уж тогда делать порноСДЛ и вылизывать каждую страничку, тогда и конверт будет выше

не будет у СДЛа конверт выше чем у дора... точнее может быть с самого начала он и будет высоким, но с каждым днем будет падать всё ниже и ниже.

xXх
На сайте с 19.01.2009
Offline
70
#12
babun:
Колоссальные трудозатраты, причём значительнцю часть придётся возиться вручную. и всё это ради сомнительной цели. Куда проще это бабло вложить в СДЛ.

firacet: получилась полная хрень =)

Скрипт для морфологических преобразований пишется максимум 20 минут.

firacet
На сайте с 23.07.2008
Offline
68
#13
yaks:
если уж преобразовывать то тогда надо делать так чтоб в преобразованых фразах слова сочетались грамматически правильно, а это очень непросто

Не так уж и не просто. Вот давайте посмотрим что мы может узнать ключевике "скачать архивы порно галерей" - после анализа ( на лету ) мы получаем такую информацию:

Тоесть на каждую слово форму мы имеем полную информацию, род, мн. или од. число, глагол или местоимение итд. итд. итд.

То есть в элементе массива forms - все возможные словоформы, а в элементе all - описание этих словоформ.

Имея эти данные собрать все возможные "правильные" вариации ключевика очень просто.


array
(
[архивы] => array
(
[0] => array
(
[forms] => array
(
[0] => архив
[1] => архива
[2] => архиву
[3] => архивом
[4] => архиве
[5] => архивы
[6] => архивов
[7] => архивам
[8] => архивами
[9] => архивах
)

[common] => но
[all] => array
(
[0] => с мр,ед,им;с мр,ед,вн
[1] => с мр,ед,рд
[2] => с мр,ед,дт
[3] => с мр,ед,тв
[4] => с мр,ед,пр
[5] => с мр,мн,им;с мр,мн,вн
[6] => с мр,мн,рд
[7] => с мр,мн,дт
[8] => с мр,мн,тв
[9] => с мр,мн,пр
)

)

)

[галерей] => array
(
[0] => array
(
[forms] => array
(
[0] => галерея
[1] => галереи
[2] => галерее
[3] => галерею
[4] => галереей
[5] => галереею
[6] => галерей
[7] => галереям
[8] => галереями
[9] => галереях
)

[common] => но
[all] => array
(
[0] => с жр,ед,им
[1] => с жр,ед,рд;с жр,мн,им;с жр,мн,вн
[2] => с жр,ед,дт;с жр,ед,пр
[3] => с жр,ед,вн
[4] => с жр,ед,тв
[5] => с жр,ед,тв
[6] => с жр,мн,рд
[7] => с жр,мн,дт
[8] => с жр,мн,тв
[9] => с жр,мн,пр
)

)

)

[порно] => array
(
[0] => array
(
[forms] => array
(
[0] => порно
)

[common] => но
[all] => array
(
[0] => с ср,0
)

)

)

[скачать] => array
(
[0] => array
(
[forms] => array
(
[0] => скачать
[1] => скачал
[2] => скачала
[3] => скачало
[4] => скачали
[5] => скачаю
[6] => скачаем
[7] => скачаешь
[8] => скачаете
[9] => скачает
[10] => скачают
[11] => скачав
[12] => скачавши
[13] => скачаемте
[14] => скачай
[15] => скачайте
[16] => скачавший
[17] => скачавшего
[18] => скачавшему
[19] => скачавшим
[20] => скачавшем
[21] => скачавшая
[22] => скачавшей
[23] => скачавшую
[24] => скачавшею
[25] => скачавшее
[26] => скачавшие
[27] => скачавших
[28] => скачавшими
[29] => скачанный
[30] => скачанного
[31] => скачанному
[32] => скачанным
[33] => скачанном
[34] => скачан
[35] => скачанная
[36] => скачанной
[37] => скачанную
[38] => скачанною
[39] => скачана
[40] => скачанное
[41] => скачано
[42] => скачанные
[43] => скачанных
[44] => скачанными
[45] => скачаны
)

[common] => св,пе
[all] => array
(
[0] => г дст,инф
[1] => г дст,прш,мр,ед
[2] => г дст,прш,жр,ед
[3] => г дст,прш,ср,ед
[4] => г дст,прш,мн
[5] => г дст,буд,1л,ед
[6] => г дст,буд,1л,мн;г дст,пвл,1л,мн
[7] => г дст,буд,2л,ед
[8] => г дст,буд,2л,мн
[9] => г дст,буд,3л,ед
[10] => г дст,буд,3л,мн
[11] => г дст,дпр,прш
[12] => г дст,дпр,прш
[13] => г дст,пвл,1л,мн
[14] => г дст,пвл,2л,ед
[15] => г дст,пвл,2л,мн
[16] => г прч,од,но,прш,дст,ед,мр,им;г прч,но,прш,дст,ед,мр,вн
[17] => г прч,од,но,прш,дст,ед,мр,рд;г прч,од,прш,дст,ед,мр,вн;г прч,од,но,прш,дст,ед,ср,рд
[18] => г прч,од,но,прш,дст,ед,мр,дт;г прч,од,но,прш,дст,ед,ср,дт
[19] => г прч,од,но,прш,дст,ед,мр,тв;г прч,од,но,прш,дст,ед,ср,тв;г прч,од,но,прш,дст,мн,дт
[20] => г прч,од,но,прш,дст,ед,мр,пр;г прч,од,но,прш,дст,ед,ср,пр
[21] => г прч,од,но,прш,дст,ед,жр,им
[22] => г прч,од,но,прш,дст,ед,жр,рд;г прч,од,но,прш,дст,ед,жр,дт;г прч,од,но,прш,дст,ед,жр,тв;г прч,од,но,прш,дст,ед,жр,пр
[23] => г прч,од,но,прш,дст,ед,жр,вн
[24] => г прч,од,но,прш,дст,ед,жр,тв
[25] => г прч,од,но,прш,дст,ед,ср,им;г прч,од,но,прш,дст,ед,ср,вн
[26] => г прч,од,но,прш,дст,мн,им;г прч,но,прш,дст,мн,вн
[27] => г прч,од,но,прш,дст,мн,рд;г прч,од,прш,дст,мн,вн;г прч,од,но,прш,дст,мн,пр
[28] => г прч,од,но,прш,дст,мн,тв
[29] => г прч,од,но,прш,стр,ед,мр,им;г прч,но,прш,стр,ед,мр,вн
[30] => г прч,од,но,прш,стр,ед,мр,рд;г прч,од,прш,стр,ед,мр,вн;г прч,од,но,прш,стр,ед,ср,рд
[31] => г прч,од,но,прш,стр,ед,мр,дт;г прч,од,но,прш,стр,ед,ср,дт
[32] => г прч,од,но,прш,стр,ед,мр,тв;г прч,од,но,прш,стр,ед,ср,тв;г прч,од,но,прш,стр,мн,дт
[33] => г прч,од,но,прш,стр,ед,мр,пр;г прч,од,но,прш,стр,ед,ср,пр
[34] => г прч,од,но,прш,стр,ед,мр,кр
[35] => г прч,од,но,прш,стр,ед,жр,им
[36] => г прч,од,но,прш,стр,ед,жр,рд;г прч,од,но,прш,стр,ед,жр,дт;г прч,од,но,прш,стр,ед,жр,тв;г прч,од,но,прш,стр,ед,жр,пр
[37] => г прч,од,но,прш,стр,ед,жр,вн
[38] => г прч,од,но,прш,стр,ед,жр,тв
[39] => г прч,од,но,прш,стр,ед,жр,кр
[40] => г прч,од,но,прш,стр,ед,ср,им;г прч,од,но,прш,стр,ед,ср,вн
[41] => г прч,од,но,прш,стр,ед,ср,кр
[42] => г прч,од,но,прш,стр,мн,им;г прч,но,прш,стр,мн,вн
[43] => г прч,од,но,прш,стр,мн,рд;г прч,од,прш,стр,мн,вн;г прч,од,но,прш,стр,мн,пр
[44] => г прч,од,но,прш,стр,мн,тв
[45] => г прч,од,но,прш,стр,мн,кр
)

)

)

)
Сбылись мечты народный: Мир-Труд-Май
Y
На сайте с 22.02.2008
Offline
96
#14
firacet:
Имея эти данные собрать все возможные "правильные" вариации ключевика очень просто.

согласен, если перебирать все варианты сочетаний с учетом рода, числа и т.д., будет много правильных вариаций, но и "неправильных" будет немало, все таки не всегда правльно определяется морфология. Кроме того если попадаются слова с ошибками, то определится точно неправильно.

Хотя для бредотекста конечно пойдет, эт у меня требования высокие, немного для других задач :)

---coming soon---
DS
На сайте с 10.03.2009
Offline
31
#15

Возможно, я что-то недопонимаю, но мне кажется, что от таких действий может быть только два положительных результата:

1) угадывание тех словосочетаний, которые по какой-то причине не попали в доступные Вам базы ключевиков,

2) предсказывание возможных словосочетаний, которые могут возникнуть, но ещё не возникли и поэтому не попали в доступные Вам базы ключевиков.

Вам, конечно же, хотелось бы другого результата, а именно: максимально покрыть возможные варианты запросов. Но поскольку Вы сгенерируете список, богатый несуществующими запросами, Вам надо будет его почистить, чтобы эффективно тратить ресурсы на выполнение Вашей задачи. А как Вы сможете его почистить? Вы либо примените невероятно эффективный алгоритм анализа и прогноза, реализованный на базе, скажем, нейронной сети, либо просто спросите себя: а зачем мне это всё, если уже есть готовые базы...

Можно говорить и о других аспектах Вашей идеи, но, скорее всего, уже существуют методы их воплощения.

Однако сама по себе идея хороша именно тем, что похожа на поиски Индии Колумбом. В процессе её развития Вы можете случайно открыть для себя массу интересного.

firacet:
Добрый день,

"все" мы используем парсеные ключевики в которых не редкость "не правильные" запросы, например : "скачивали по..но"
По правилом - все правильно, но ведь ПС ищет с учетом морфологии.
Может имеет смысл этот ключевик переделать в
скачивать по..но
скачаю по..но
скачили по..но
итд.
и уже разнообразное кол-во таких ключевиков вставлять в текст?

Кто-то баловался со словоформами? Есть какие-то результаты?
Я понимаю, что лучше самому проверить и проверю, но мне так-же интересно услышать ваше мнение.
B
На сайте с 31.05.2007
Offline
16
#16
xXх:
Скрипт для морфологических преобразований пишется максимум 20 минут.

ну а что же у каждого нет своего генератора человеческих текстов?

видимо ваши скрипты для морфологических преобразований полный кал.

T
На сайте с 19.10.2008
Offline
32
#17

Firecat, все равно будет много мусора, который нужно будет править руками. К тому же эти "правильные" ключи будут заталкиваться в бредотекст. Тогда плюс к этому вам нужно будет соблюсти морфологию не только в самом ключе, но и чтобы сам ключ не выпадал из предложения. А это уже совсем другая, нетривиальная задача

Сбылись мечты народные: МИР-ТРУД-МАЙ
xXх
На сайте с 19.01.2009
Offline
70
#18
babun:
ну а что же у каждого нет своего генератора человеческих текстов?
видимо ваши скрипты для морфологических преобразований полный кал.

Читай внимательнее, я сказал что:

Скрипт для морфологических преобразований пишется максимум 20 минут.

Причем тут генератор человеческих текстов?

LA
На сайте с 03.06.2008
Offline
105
#19
babun:
Колоссальные трудозатраты, причём значительнцю часть придётся возиться вручную. и всё это ради сомнительной цели. Куда проще это бабло вложить в СДЛ.

О, да, детка! Колоссальные! 5 минут работы с готовыми публичными библиотеками написанными на пыхе =)

B
На сайте с 31.05.2007
Offline
16
#20
xXх:
Читай внимательнее, я сказал что:
Скрипт для морфологических преобразований пишется максимум 20 минут.
Причем тут генератор человеческих текстов?

не понти☝

lord_alfred, калоген можно и за 5 минут. Но, реального и тем чем можно будет гордиться - врятли.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий