MorfoDubl - Морфологический фильтр ключей и не только!

1 2345 6
[Удален]
#21
NBSerG:
Будут приведены в начальную форму к одному слову "ходить"

но при обработке остается 1я словоформа...
тоесть если

хожу по дому
ходил по дому
ходить по дому

после обработки будет только "хожу по дому"

не понял, почему останется только "хожу по дому"

а как же

"ходить" "по" "дом"?

NBSerG
На сайте с 04.09.2010
Offline
134
#22
burunduk:
не понял, почему останется только "хожу по дому"
а как же
"ходить" "по" "дом"?

читаем внимательно то что написано выше!

принцип алгоритма возьмет за базу "ходить" "по" "дом"

но при обработке остается 1я словоформа(в списке)

тоесть если будет

ходил по дому

хожу по дому

ходить по дому

то останется

ходил по дому

Изготовление сайтов на Joomla (/ru/forum/726795) Такие деньги можно заработать только здесь!!! (http://goo.gl/k1oTJ) Выиграй Porsche Cayenne! (http://goo.gl/RqHaU)
[Удален]
#23
NBSerG:
но при обработке остается 1я словоформа(в списке)

это плохо :(

как узнать какая правильная?

NBSerG
На сайте с 04.09.2010
Offline
134
#24
burunduk:
это плохо :(
как узнать какая правильная?

ну предложите свой вариант, может в след версии реализуется...

программа развивается каждый день.

на данном этапе я ее использую для фильтрации базы пастухова и при фильтрации по частотности она по логике оставляет самый частотный...

да и потом если брать для поисковиков то "правильно" у них понятие размытое...

[Удален]
#25

NBSerG, для начала http://aot.ru/demo/synt.html

потом уже разбирать :)

Василий Колодин
На сайте с 17.12.2008
Offline
250
#26

А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

Юзаю Бегет с 2013 года. Начни юзать и ты: https://beget.com/p64496/ru/hosting/virtual
NBSerG
На сайте с 04.09.2010
Offline
134
#27
burunduk:
NBSerG, для начала http://aot.ru/demo/synt.html
потом уже разбирать :)

а можно по подробнее и желательно на пальцах что вы этим хотите сказать и зачем это нужно (где применять)

---------- Добавлено 06.06.2012 в 22:25 ----------

titaniMOZG:
А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

статистику не проводил по ли...

можете кинуть пару списков на 5-10к каждый я вам на ваших же примерах и скажу.

по базе пастухова скажу что по разному... но так на глаз от 50% минимум... ну в плане из 20к останется менее 10к

---------- Добавлено 06.06.2012 в 22:28 ----------

burunduk:
NBSerG, для начала http://aot.ru/demo/synt.html
потом уже разбирать :)

вроде то же

[Удален]
#28

NBSerG, т.е. программа производит синтаксический разбор фраз и приводит слова из фразы к первоначальной форме?

из прилагательного существительное не получится?

NBSerG
На сайте с 04.09.2010
Offline
134
#29
burunduk:
NBSerG, т.е. программа производит синтаксический разбор фраз и приводит слова из фразы к первоначальной форме?

из прилагательного существительное не получится?

совершенно верно!

так же программа не искажает часть речи как и ваш сервис

---------- Добавлено 06.06.2012 в 22:54 ----------

titaniMOZG:
А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

и кстати пока проверяется хочу заметить что если сбор ключей с ли был через кей коллектор то там тоже есть фильтрация похожих при обработке. тоесть результат если и будет то в меньшую сторону чем был бы с ексельной выборки напрямую с ли

[Удален]
#30
NBSerG:
совершенно верно!

тогда интересен немного другой вариант работы:

обработка массива фраз с составлением словаря массива с указанием частоты повтора слов :)

если можно будет юзать как консольное приложение вообще классно :)

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий