Также, при поиске неявных с учетом морфологии выдаёт дублями (хотя они не являются таковыми):
боксерские перчатки 10 унций боксерские перчатки 12 унций боксерские перчатки 14 унций
Импортирую фразы:
боксерские перчаткибоксерских перчатоккепкикепоквязаные шапкивязаных шапок
Нажимаю "найти неявные дубли с учетом морфологии", программа возвращает сообщение внизу "неявные дубли найдены", но список пуст. Только у меня так?
Bukvarix, превосходное решение, спасибо!
Понял, спасибо, что объяснили.
Да, я упустил этот момент с USB 2.0. Но навскидку, это не критично для меня, т.к. скорость работы программы даже с таким "искусственным замедлением" папки временных файлов, устраивает.
Субъективно, но важнее для меня, чтобы система не подтормаживала, что имеет место быть при расположении временной папки на системном диске - т.к. Букварикс при работе над выборками довольно сильно нагружает диск (хоть и кратковременно, учитывая очень высокую скорость работы программы).
Было бы идеально, спасибо! (Кстати, и за инструкции по настройке постоянной буквы диска, но вариант с батником более предпочтителен, конечно).
Сам использую примерно такой быдлокод для идентификации внешних дисков:
SetLocal :: поиск диска с Буквариксом: set "Bukvarix=" for %%a in (z y x w v u t s r q p o n m l k j i h g f e d c b a) do vol %%a: |find "XXXX-XXXX" >nul && set Bukvarix=%%a: if not defined Bukvarix goto :eof :: путь к папке временных файлов на диске с Буквариксом: :: "%Bukvarix%\path_to_temp_folder\" EndLocal
(один раз надо вписать в батник относительный путь, серийный номер тома внешнего диска, и всё)
В настройках программы на вкладке "решение проблем" задал пути к папке настроек и папке временных файлов. Букварикс работает со внешнего диска. Получилось к примеру следующее:
D:\Bukvarix\Settings\ D:\Bukvarix\Temp\
При подключении внешнего диска на другой букве (не на той, на которой задавались настройки), программа поступает с путями следующим образом:
* Путь к папке настроек оставляет без изменения, но меняет букву диска на правильную;
* Путь к папке временных файлов скидывается на значение по умолчанию.
В указанном примере получается к примеру следующее:
G:\Bukvarix\Settings\ C:\Users\<UserName>\AppData\Local\Temp\Bukvarix2.4\
Предложение следующее: научить Букварикс корректировать путь к папке временных файлов таким же образом, как и путь к папке настроек. На примере выше это выглядело бы так:
G:\Bukvarix\Settings\ G:\Bukvarix\Temp\
При пакетной проверке программа останавливает работу, если какой-то файл был перемещён/удалён - ошибка "файл не найден" или что-то в этом роде. Предложение такое: вместо остановки проверки, записывать подобные ошибки в лог, и продолжать проверку.
Со вчерашнего дня появилась проблема: при обычной проверке программа вешает процессор компа на 70-95%, проверка идёт медленно, и система начинает жутко тормозить (даже курсор мыши рывками двигается).
В системе и "железе" компа ничего не поменялось. Как можно попробовать исправить такую проблему?
А как насчёт такого варианта: снимать общую частоту за год (раз в год), делить на 12 и получать среднемесячную частоту за последний год, и ориентироваться на неё при удалении ключей из базы. Например, с помощью КК считаю такой формулой KEI:
( YandexWordstatBaseFreq + 0.001 ) / 12
Тогда нулевые ключи всё равно отсеивались бы, а "яркосезонные" показывали бы частоту выше 0, и это бы спасало их от удаления.
Данные были бы более-менее свежими (всё таки берётся только последний год), и база бы не разрасталась засчёт ключей, "у которых хотя бы когда-то была частотность выше нуля".
Это навскидку, возможно такой вариант не подходит Буквариксу.
Вам спасибо за прекрасное ПО и базу!
Ваше уточнение в десятку. Именно про расширенный поиск я говорил (когда идёт ряд исходных слов/фраз). Поддерживаю указанное вами изменение поведения программы. Спасибо заранее!
Согласен, разумно.
Да, тут бы в идеале интегрировать все сторонние базы на вашей стороне, и скачивать и подключать их на стороне пользователя. Но наверное это целое дело (договориться со сторонними "поставщиками" баз, ресурсы на их приведение в формат Букварикса и т.д. и т.п.)...
Ещё такой момент хотел бы затронуть: если не ошибаюсь, вы говорили в этой ветке, что фразы, имеющие по общей частоте 0, удаляются из базы. Если речь о съёме частоты по умолчанию (за последние 30 дней), то базу может "колбасить" в течение года - ряд хороших сезонных ключей в некоторые периоды будут показывать 0, и удаляться.
Что-то упускаю?