Проверьте, почему остается 1я словоформа - Сервисы и программы для работы с SE

MorfoDubl - Морфологический фильтр ключей и не только!

NBSerG · 2012-06-04T20:54:57.0000000Z

Приветствую! Предлагаю Вам новую программу для очистки баз ключей и не только не имеющую аналогов! Немного теории ... Алгоритм программы построен на морфологическом анализе данных указанных пользователем, для удаления похожих слов и словосочетаний которые написаны разными словоформами но имеют один и тот же смысл. Алгоритм работы данной программы похож на алгоритм работы поисковых систем: все вы наверное не раз сталкивались с ситуацией когда вы вводите в поисковике похожие запросы, а выдача поисковика не изменяется, следовательно для поисковика все эти запросы одинаковы. Исходя из этого было принято решение написать такую программу которая бы могла сократить к минимуму число строк в обрабатываемом файле путем удаления всех морфологически похожих. Перейдем к практике ... Многие из вас заказывают или делают выборки ключей из разных баз... будь то база Пастухова или статистика ЛИ... При этом список ключей получается на 10-100тыс а то и более, причем половина ключей состоит из одинаковых слов но имеют словоформы. Пример купить камаз дорого купить дорого камаз камаз купить дорого купил дорого камаз купили дорого камазы после очистки программой остается только купить камаз дорого До после Цена программы 30$ - обновление и поддержка бесплатно Первым 3м с репой за отзыв всего 15$ Контакты - ЛС Покупка: morfodubl@yandex.ru icq 44девять1ноль8768

[Удален]

6 июня 2012, 18:47

#21

NBSerG:
Будут приведены в начальную форму к одному слову "ходить"

но при обработке остается 1я словоформа...
тоесть если

хожу по дому
ходил по дому
ходить по дому

после обработки будет только "хожу по дому"

не понял, почему останется только "хожу по дому"

а как же

"ходить" "по" "дом"?

134

NBSerG

6 июня 2012, 18:52

#22

burunduk:
не понял, почему останется только "хожу по дому"
а как же
"ходить" "по" "дом"?

читаем внимательно то что написано выше!

принцип алгоритма возьмет за базу "ходить" "по" "дом"

но при обработке остается 1я словоформа(в списке)

тоесть если будет

ходил по дому

хожу по дому

ходить по дому

то останется

ходил по дому

Изготовление сайтов на Joomla (/ru/forum/726795) Такие деньги можно заработать только здесь!!! (http://goo.gl/k1oTJ) Выиграй Porsche Cayenne! (http://goo.gl/RqHaU)

[Удален]

6 июня 2012, 19:00

#23

NBSerG:
но при обработке остается 1я словоформа(в списке)

это плохо :(

как узнать какая правильная?

134

NBSerG

6 июня 2012, 19:10

#24

burunduk:
это плохо :(
как узнать какая правильная?

ну предложите свой вариант, может в след версии реализуется...

программа развивается каждый день.

на данном этапе я ее использую для фильтрации базы пастухова и при фильтрации по частотности она по логике оставляет самый частотный...

да и потом если брать для поисковиков то "правильно" у них понятие размытое...

Более 1 млрд. ключевых Автоматизация сбора данных для Яндекс дал объяснения касательно

[Удален]

6 июня 2012, 19:16

#25

NBSerG, для начала http://aot.ru/demo/synt.html

потом уже разбирать :)

250

Василий Колодин

6 июня 2012, 19:20

#26

А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

Юзаю Бегет с 2013 года. Начни юзать и ты: https://beget.com/p64496/ru/hosting/virtual

134

NBSerG

6 июня 2012, 19:21

#27

burunduk:
NBSerG, для начала http://aot.ru/demo/synt.html
потом уже разбирать :)

а можно по подробнее и желательно на пальцах что вы этим хотите сказать и зачем это нужно (где применять)

---------- Добавлено 06.06.2012 в 22:25 ----------

titaniMOZG:
А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

статистику не проводил по ли...

можете кинуть пару списков на 5-10к каждый я вам на ваших же примерах и скажу.

по базе пастухова скажу что по разному... но так на глаз от 50% минимум... ну в плане из 20к останется менее 10к

---------- Добавлено 06.06.2012 в 22:28 ----------

burunduk:
NBSerG, для начала http://aot.ru/demo/synt.html
потом уже разбирать :)

вроде то же

Дополнительные настройки в Директе ВКонтакте обновилась статистика продвижения Бизнес-профили в Instagram подключили

[Удален]

6 июня 2012, 19:32

#28

NBSerG, т.е. программа производит синтаксический разбор фраз и приводит слова из фразы к первоначальной форме?

из прилагательного существительное не получится?

134

NBSerG

6 июня 2012, 19:38

#29

burunduk:
NBSerG, т.е. программа производит синтаксический разбор фраз и приводит слова из фразы к первоначальной форме?

из прилагательного существительное не получится?

совершенно верно!

так же программа не искажает часть речи как и ваш сервис

---------- Добавлено 06.06.2012 в 22:54 ----------

titaniMOZG:
А интересен статистический порядок: если я спарсил с ЛИ кучу запросов, сколько в среднем из них будут дублирующими? 20%, 50% или 200% ???

и кстати пока проверяется хочу заметить что если сбор ключей с ли был через кей коллектор то там тоже есть фильтрация похожих при обработке. тоесть результат если и будет то в меньшую сторону чем был бы с ексельной выборки напрямую с ли

Анализ: выдача - запросы SERP Parser - мониторинг Мутаген - сервис подбора

[Удален]

6 июня 2012, 20:13

#30

NBSerG:
совершенно верно!

тогда интересен немного другой вариант работы:

обработка массива фраз с составлением словаря массива с указанием частоты повтора слов :)

если можно будет юзать как консольное приложение вообще классно :)

Что такое Power BI и зачем это нужно бизнесу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

MorfoDubl - Морфологический фильтр ключей и не только!