reinhart

Рейтинг
70
Регистрация
16.01.2012
Предложение добавить в данные по доменам релевантную страницу домена по каждой фразе - будет возможность быстро находить синонимы ключевых фраз: нашли в топе по интересующей нас фразе домен, получили данные от Букварикса, нашли релевантную страницу по фразе, отфильтровали по странице, получили все ключи страницы, среди которых могут быть интересные синонимы. 

Это очень удобно (иногда синонимы не очевидны), и это легко можно делать в keys.so. Вы можете это внедрить без расходов на съем данных (так как релевантная страница снимается вместе с позицией).

Также, при поиске неявных с учетом морфологии выдаёт дублями (хотя они не являются таковыми):


боксерские перчатки 10 унций
боксерские перчатки 12 унций
боксерские перчатки 14 унций

Импортирую фразы:

боксерские перчатки
боксерских перчаток
кепки
кепок
вязаные шапки
вязаных шапок

Нажимаю "найти неявные дубли с учетом морфологии", программа возвращает сообщение внизу "неявные дубли найдены", но список пуст. Только у меня так?

Bukvarix, превосходное решение, спасибо!

Bukvarix:
А внешне это выглядит это так, что программа меняет буквы дисков по-разному, руководствуясь разной логикой.

Понял, спасибо, что объяснили.

Bukvarix:

Т.е. для временных файлов предпочтительнее использовать внутренний жесткий диск, что программы и делает.

Да, я упустил этот момент с USB 2.0. Но навскидку, это не критично для меня, т.к. скорость работы программы даже с таким "искусственным замедлением" папки временных файлов, устраивает.

Субъективно, но важнее для меня, чтобы система не подтормаживала, что имеет место быть при расположении временной папки на системном диске - т.к. Букварикс при работе над выборками довольно сильно нагружает диск (хоть и кратковременно, учитывая очень высокую скорость работы программы).

Bukvarix:

Еще есть вариант доработать программу и дать возможность указать каталог для временных файлов через командную строку, чтобы запускать программу через .bat, который мы можем написать и предложить вам.

Было бы идеально, спасибо! (Кстати, и за инструкции по настройке постоянной буквы диска, но вариант с батником более предпочтителен, конечно).

Сам использую примерно такой быдлокод для идентификации внешних дисков:


SetLocal

:: поиск диска с Буквариксом:
set "Bukvarix="
for %%a in (z y x w v u t s r q p o n m l k j i h g f e d c b a) do vol %%a: |find "XXXX-XXXX" >nul && set Bukvarix=%%a:
if not defined Bukvarix goto :eof

:: путь к папке временных файлов на диске с Буквариксом:
:: "%Bukvarix%\path_to_temp_folder\"

EndLocal

(один раз надо вписать в батник относительный путь, серийный номер тома внешнего диска, и всё)

В настройках программы на вкладке "решение проблем" задал пути к папке настроек и папке временных файлов. Букварикс работает со внешнего диска. Получилось к примеру следующее:


D:\Bukvarix\Settings\
D:\Bukvarix\Temp\

При подключении внешнего диска на другой букве (не на той, на которой задавались настройки), программа поступает с путями следующим образом:

* Путь к папке настроек оставляет без изменения, но меняет букву диска на правильную;

* Путь к папке временных файлов скидывается на значение по умолчанию.

В указанном примере получается к примеру следующее:


G:\Bukvarix\Settings\
C:\Users\<UserName>\AppData\Local\Temp\Bukvarix2.4\

Предложение следующее: научить Букварикс корректировать путь к папке временных файлов таким же образом, как и путь к папке настроек. На примере выше это выглядело бы так:


G:\Bukvarix\Settings\
G:\Bukvarix\Temp\

При пакетной проверке программа останавливает работу, если какой-то файл был перемещён/удалён - ошибка "файл не найден" или что-то в этом роде. Предложение такое: вместо остановки проверки, записывать подобные ошибки в лог, и продолжать проверку.

Со вчерашнего дня появилась проблема: при обычной проверке программа вешает процессор компа на 70-95%, проверка идёт медленно, и система начинает жутко тормозить (даже курсор мыши рывками двигается).

В системе и "железе" компа ничего не поменялось. Как можно попробовать исправить такую проблему?

Bukvarix:

Это отчасти вынужденная мера, потому что иначе база станет совсем большой и загрузить такую захотят/смогут немногие. В онлайн-проекте будет немного по-другому.

Мы оставим в базе все слова, у которых хотя бы кода-то была частотность выше нуля, т.е. для онлайн-проекта мы изменим принципы формирования базы так, чтобы она была максимально полной и полезной.

А как насчёт такого варианта: снимать общую частоту за год (раз в год), делить на 12 и получать среднемесячную частоту за последний год, и ориентироваться на неё при удалении ключей из базы. Например, с помощью КК считаю такой формулой KEI:

( YandexWordstatBaseFreq + 0.001 )  /  12

Тогда нулевые ключи всё равно отсеивались бы, а "яркосезонные" показывали бы частоту выше 0, и это бы спасало их от удаления.

Данные были бы более-менее свежими (всё таки берётся только последний год), и база бы не разрасталась засчёт ключей, "у которых хотя бы когда-то была частотность выше нуля".

Это навскидку, возможно такой вариант не подходит Буквариксу.

Bukvarix:
Спасибо! Рады, что программа вам полезна.

Вам спасибо за прекрасное ПО и базу!

Bukvarix:

Если вас устроит такой вариант (не искать при старте программы в расширенном поиске), то подтвердите, мы включим это изменение поведения программы в следующий апдейт (выйдет на следующей неделе).

Ваше уточнение в десятку. Именно про расширенный поиск я говорил (когда идёт ряд исходных слов/фраз). Поддерживаю указанное вами изменение поведения программы. Спасибо заранее!

Bukvarix:

Возможно, если в будущем у нас будет несколько баз, и нужно будет выбирать между базами для подключения, то это будет хорошим решением, но пока мы такого (выпуск нескольких баз) не планируем.

Согласен, разумно.

Bukvarix:

В настоящее время Букварикс очень нетребователен к ресурсам и работает даже на малопроизводительных компьютерах, поскольку всю тяжелую работу по формированию индексов, обеспечивающих быстрый поиск, мы делаем у себя и выдаем подготовленную базу. Если же давать возможность подключения внешних баз, то индексирование базы должно производиться на стороне пользователя, а это неминуемо повлечет за собой повышение требований к ПК, чего мы хотели бы избежать.

Да, тут бы в идеале интегрировать все сторонние базы на вашей стороне, и скачивать и подключать их на стороне пользователя. Но наверное это целое дело (договориться со сторонними "поставщиками" баз, ресурсы на их приведение в формат Букварикса и т.д. и т.п.)...

Ещё такой момент хотел бы затронуть: если не ошибаюсь, вы говорили в этой ветке, что фразы, имеющие по общей частоте 0, удаляются из базы. Если речь о съёме частоты по умолчанию (за последние 30 дней), то базу может "колбасить" в течение года - ряд хороших сезонных ключей в некоторые периоды будут показывать 0, и удаляться.

Что-то упускаю?

12 3
Всего: 27