Key Collector - автоматизированная система анализа семантического ядра. Часть 12

MIND
На сайте с 08.03.2007
Offline
238
#851

sni, что Руки выдают -- то программа и отображает, так что вопрос не к нам, к сожалению.

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)
MA
На сайте с 24.02.2014
Offline
50
m_a
#852

Жизнь заставила начать работать с базами.

Естессно, получил кучу мусора с кучей дублей.

Так вот, пока не вбил в настройках нормальный список исключений, дубликаты искались так себе.

Вот список стоп-слов Яндекса во всех склонениях, может кому пригодится. Все проверены - если любое вбить в вордстат, получим 0 частотность.


а
бы
в
вам
вами
вас
все
всем
всеми
всех
вы
для
его
ей
ее
её
ему
есть
ею
же
за
и
или
им
ими
их
к
как
кем
ко
когда
кого
кому
кто
моего
моему
моем
моём
мои
моим
моими
моих
мой
меня
мне
мной
мною
мы
на
нам
нами
нас
не
ней
нем
нём
нет
них
о
об
один
одна
одни
одним
одними
одних
одно
одной
одного
одном
одному
одну
он
она
они
от
по
при
с
сам
своего
своем
своём
своему
свои
своим
своими
своих
свой
свое
своё
своей
своя
свою
себе
себя
собой
собою
твой
твоего
твоему
твои
твоим
твоими
твоих
твоем
твоём
ты
тебе
тобой
тобою
тебя
у
уже
сам
такой
только
чего
чему
чем
чей
что
это
a
about
all
and
are
at
be
can
do
for
have
i
in
is
it
my
no
not
of
one
that
the
there
they
this
to
was
we
will
with
you
one
На сайте с 15.04.2007
Offline
336
one
#853

m_a, а для чего это? Вы же будете отсекать ключи содержащие слова из этого списка.

Решения для автоматизации действий ( https://www.facebook.com/automationstudio20/ ) в интернете.
MA
На сайте с 24.02.2014
Offline
50
m_a
#854

one, давайте для примера возьмем пул запросов по маске серый слон.

Базы выдают список бреда наподобие:

у серого слона в
как серые слон
у серого слона
в сером слоне
он как серый слон
уже серые слоны и мы
твой и мой серый слон

Все эти фразы в широком соответствии для яндекса одно и тоже, чистые дубли; у них всех одинаковая частотность. У меня задача стоит - оставить только одну фразу, наиболее здравую.

И список выше нужен, что б КК в свою очередь распознал их как одинаковые.

---------- Добавлено 16.07.2015 в 12:51 ----------

Забыл сказать - это для Директа одинаково.

Как в сео не знаю.

one
На сайте с 15.04.2007
Offline
336
one
#855

Вы будете отсекать такие запросы:

"у серого слона в попе какашки скачать"

"что у серого слона большое"

В КК есть функция "не явные дубли", используйте ее.

E
На сайте с 17.02.2008
Offline
150
#856

Лицензия слетела.

Файрволл и антивирус не стоит.

HID тот же.

В чем может быть дело?

MIND
На сайте с 08.03.2007
Offline
238
#857

extruder, HID выдает сама программа при запуске. Не могли бы Вы в личку прислать ссылку на страницу сайта, где написано про HID.exe?

---------- Добавлено 16.07.2015 в 14:54 ----------

one, полагаю, речь о том, что анализ неявных дублей иногда работает не так, как хотелось бы. Его работу можно корректировать, редактируя список исключений. Например, при помощи него можно заставить этот инструмент находить такие неявные дубли, которые до этого он не видел.

Sevix
На сайте с 24.10.2011
Offline
93
#858

Вот кстати по поводу списка стоп-слов. Есть маленькое предложение.

В фильтрах по фразе есть условие - "Содержит повторы слов".

Было бы неплохо иметь возможность искать повторы игнорируя некоторые слова.

Например (как пример) фразы:

"адапторы для наушников для сотового телефона"

"как использовать наушники от телефона как микрофон"

потенциально не такие уж и мусорные.

Только чтоб функция отключаемая была.

MIND
На сайте с 08.03.2007
Offline
238
#859

Sevix, если хотите, то потом просто после отметки по стоп-словам ставьте фильтр по колонке "отмечено" и просматривайте вручную. Или же далее уже под этим фильтром прогоняйте свой второй список "хороших повторов" через то же окно стоп-слов.

Sevix
На сайте с 24.10.2011
Offline
93
#860
MIND:
Sevix, если хотите, то потом просто после отметки по стоп-словам ставьте фильтр по колонке "отмечено" и просматривайте вручную. Или же далее уже под этим фильтром прогоняйте свой второй список "хороших повторов" через то же окно стоп-слов.

Так в том то и дело. Если добавлять в список слова с какой-нибудь базы, то даже после чеканья на частотность, слов типа

"купить купить ноутбук"

может быть несколько сотен. И все их нужно просматривать.

А как через список "хороших стоп-слов" отметить повторы, я не совсем понимаю.

Потому как фраза

"купить купить ноутбук в москве"

тоже отметится как хорошая, так как у меня в списке будут слова "в", "для" и т.д.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий