Сделайте, пожалуйста, возможность применять условие:
#слово+#слово
и комбинации (# до или после)
А то так много ненужного вытягивает.
Вы в аське совсем не отвечаете, поэтому задам тут.
У меня есть база в тхт. Размер примерно 45 гб. Вроде по всем параметрам размер вполне рабочий.
Выборку пингвин из нее делает, а вот когда решил дубли почистить, то вот:
Памяти свободной дофига.
Почему так?
Очень хотелось бы, чтобы списки стоп-слов были глобальными, и присутствовали во вновь созданном проекте.
дубль дубль
Подскажите, как настроить выборку, чтобы искало в строке обязательно оба слова, но обрезанных в начале/конце (одно или оба)?
Так: #слово - работает.
Так: слово# - тоже.
А вот вместе, через "+", со знаком "#" не работает. А без знака ищет только все словоформы и первого и второго.
Может какая нибудь регулярка есть, которая ищет повторы, но исключая то-то и то-то?
Так в том то и дело. Если добавлять в список слова с какой-нибудь базы, то даже после чеканья на частотность, слов типа
"купить купить ноутбук"
может быть несколько сотен. И все их нужно просматривать.
А как через список "хороших стоп-слов" отметить повторы, я не совсем понимаю.
Потому как фраза
"купить купить ноутбук в москве"
тоже отметится как хорошая, так как у меня в списке будут слова "в", "для" и т.д.
Вот кстати по поводу списка стоп-слов. Есть маленькое предложение.
В фильтрах по фразе есть условие - "Содержит повторы слов".
Было бы неплохо иметь возможность искать повторы игнорируя некоторые слова.
Например (как пример) фразы:
"адапторы для наушников для сотового телефона"
"как использовать наушники от телефона как микрофон"
потенциально не такие уж и мусорные.
Только чтоб функция отключаемая была.
По поводу сохранения результатов в разные файлы. Сейчас это реализовано крайне неудобно - нужно выделять каждую фразу по отдельности и нажимать F2. А если фраз много?
Можно сделать чтобы при выделении всех фраз, каждая строка обрабатывалась по отдельности?
А еще лучше, рядом с кнопкой "Сохранить" добавить кнопку "Сохранить в разные файлы".
Это нечто... Или вскрыли, или...