Sevix

Sevix
Рейтинг
93
Регистрация
24.10.2011

Сделайте, пожалуйста, возможность применять условие:

#слово+#слово

и комбинации (# до или после)

А то так много ненужного вытягивает.

Вы в аське совсем не отвечаете, поэтому задам тут.

У меня есть база в тхт. Размер примерно 45 гб. Вроде по всем параметрам размер вполне рабочий.

Выборку пингвин из нее делает, а вот когда решил дубли почистить, то вот:

Памяти свободной дофига.

Почему так?

Очень хотелось бы, чтобы списки стоп-слов были глобальными, и присутствовали во вновь созданном проекте.

Подскажите, как настроить выборку, чтобы искало в строке обязательно оба слова, но обрезанных в начале/конце (одно или оба)?

Так: #слово - работает.

Так: слово# - тоже.

А вот вместе, через "+", со знаком "#" не работает. А без знака ищет только все словоформы и первого и второго.

Может какая нибудь регулярка есть, которая ищет повторы, но исключая то-то и то-то?

MIND:
Sevix, если хотите, то потом просто после отметки по стоп-словам ставьте фильтр по колонке "отмечено" и просматривайте вручную. Или же далее уже под этим фильтром прогоняйте свой второй список "хороших повторов" через то же окно стоп-слов.

Так в том то и дело. Если добавлять в список слова с какой-нибудь базы, то даже после чеканья на частотность, слов типа

"купить купить ноутбук"

может быть несколько сотен. И все их нужно просматривать.

А как через список "хороших стоп-слов" отметить повторы, я не совсем понимаю.

Потому как фраза

"купить купить ноутбук в москве"

тоже отметится как хорошая, так как у меня в списке будут слова "в", "для" и т.д.

Вот кстати по поводу списка стоп-слов. Есть маленькое предложение.

В фильтрах по фразе есть условие - "Содержит повторы слов".

Было бы неплохо иметь возможность искать повторы игнорируя некоторые слова.

Например (как пример) фразы:

"адапторы для наушников для сотового телефона"

"как использовать наушники от телефона как микрофон"

потенциально не такие уж и мусорные.

Только чтоб функция отключаемая была.

По поводу сохранения результатов в разные файлы. Сейчас это реализовано крайне неудобно - нужно выделять каждую фразу по отдельности и нажимать F2. А если фраз много?

Можно сделать чтобы при выделении всех фраз, каждая строка обрабатывалась по отдельности?

А еще лучше, рядом с кнопкой "Сохранить" добавить кнопку "Сохранить в разные файлы".

Geers:
😕



)

Это нечто... Или вскрыли, или...

Всего: 156