Обновлена база рекламных объявлений, теперь она включает данные, собранные с конца апреля по середину августа текущего года.
Уникальных объявлений: 63 082 254
Уникальных заголовков: 31 939 152
Уникальных текстов: 22 844 882
Уникальных доменов: 487 632
Узнать подробнее и скачать рекламные объявления:
http://www.bukvarix.com/ad-bases.html
Вслед за обновлением программы, мы подготовили выборки для тех, кто не может скачать Букварикс. Все готовые тематические выборки обновлены по базе Букварикс 2.2. В последнее обновление включено 6 новых тем: "Покемоны", "Товары для кошек и собак", "Недвижимость", "Косметика для лица и тела", "Косметика для волос", "Макияж", таким образом сделаны выборки по 51-й популярной тематике.
Просмотреть и скачать выборки (а также списки слов, по которым они сформированы):
http://www.bukvarix.com/keyword-selections.html
Если делать выборку из базы без индекса, то, в зависимости от сложности условий, время запроса будет составлять от двух-трех часов до полусуток. Т.е. единичная выборка будет сделана намного быстрее, чем индексирование, но время каждой выборки будет большим. Такой вариант хорош для однократного задания, но плох для постоянной работы.
В данной ситуации (когда долгая индексация) можно предложить следущее:
- Все таки остановить индексацию, удалить максимальную базу из PostgreSQL (но скачанный архив оставить).
- Скачать и распаковать расширенную базу (та, которая на ~846 мл. ключевых слов).
- Проиндексировать расширенную базу (индекс создавать на SSD), прикинуть, сколько места занял индекс - чтобы можно было сказать, хватит на индексацию большой базы или нет.
Грубо можно прикинуть, что, по сравнению с расширенной базой, для максимальной на индекс нужно будет приблизительно в 4-5 раз больше места.
- Если места хватает, то значит можно снова вернуться к большой базе (с индексом на SSD).
- Если не хватает, то остается либо вариант использования средней базы, либо использования другой оболочки.
По оболочке можем сказать, что отписывались о том, что Amazing keywords успешно работает с самой максимальной базой:
/ru/forum/comment/14531382
По Penguin-у никто не отписывался, поэтому сложно сказать, потянет или нет (как вариант, можно для теста для начала попробовать на средней (расширенной), если потянет - то тогда пробовать на большой).
И ещё один вариант - можно все-таки порпобовать сделать выборку без индекса, т.е. просто пропустите шаг создания индекса.
Это будет долго, но будет работать, и если нужна именно большая база, а проиндексировать нет возможности, то тоже остается одним из вариантов.
Спасибо, этот вариант тоже можно рассмотреть, когда нет другого выхода.
Возможно, найдется кто-то с развернутой базой, кто сможет вам сделать выборки за деньги или бесплатно. Мы храним базу в виде архива и заняты сейчас другими задачами, поэтому, к сожалению, не сможем сделать выборку для вас сами.
25 точно не хватит, 40 скорее всего тоже. Но можно попробовать (или освободить больше места), для этого в PGAdmin нужно:
1. Создать tablespace для индекса на нужном диске. Для этого выполнить команду:
CREATE TABLESPACE "SSD" LOCATION 'z:\';
В 'z:\' заменить букву z на букву вашего SSD.
2. При создании индекса указать tablespace, который он должен использовать (по сравнению с обычной командой добавляется в конце TABLESPACE "SSD"):
CREATE INDEX "eng_data_table_idx" ON "eng_data_table" USING gin ((to_tsvector('english'::regconfig, ("keyword")::text))) TABLESPACE "SSD";
P.S. Для удаления индекса и tablespace (чтобы не занимали место) нужно использовать следующие команды:
drop INDEX "eng_data_table_idx";DROP TABLESPACE "SSD";
Приостановить индексацию (а потом продолжить) нельзя, можно только отменить и запустить заново.
На 8 ГБ ОЗУ для максимальной базы придется долго ждать завершения индексации, там зависимость нелинейная, т.е. нельзя сказать что вариант с 8 ГБ ОЗУ и, например, 32 ГБ ОЗУ будет различаться по скорости в 4 раза, различие будет больше.
Сколько у вас места на SSD? Есть вариант попробовать (если места хватит) создать индекс именно там, все равно это будет быстрее.
Если найдется достаточно места, то подскажем, что и как написать для создания индекса именно на SSD.
Для самой большой английской базы (та, в которой ~3,4 млрд. ключевых слов) время индексации может быть довольно длительным и занимать больше суток.
На что стоит обратить внимание:
1. Не забудьте поменять настройки сервера по умолчанию (это очень важно): http://www.bukvarix.com/english-keywords_postgresql-setup.html
2. На достаточный объем ОЗУ. Для минимальной базы хватит и ~6 Gb, для средней 8-16 Gb, а для максимальной от 32 Gb.
Если столько ОЗУ нет, но все равно хочется самую большую базу, то, если есть SSD и позволяет место, установите на SSD как сервер, так и базу - это позволит частично компенсировать недостаток ОЗУ.
P.S. Индексация - самый длительный по времени процесс, но после ее выполнения выборки будут работать намного быстрее.
Скачивайте новую версию Букварикса 2.2 - база ключевых слов увеличена до 1,5 млрд. и обновлена (в частности, можно найти такие горячие темы, как игра pokemon go), обновлены также частотности (июнь-июль этого года).
http://www.bukvarix.com/download.html
Спасибо за идею, мы храним историю частотностей и позже вернемся и к трендам в каком-либо виде и к выделению сезонных ключей, но это будет позже, после выхода онлайн-версии программы.
Мы обновляем базу (слова и частотности) примерно раз в полтора-два месяца. Полную историю обновлений можно увидеть здесь: http://www.bukvarix.com/bukvarix-versions.html
Следующее обновление базы будет примерно в конце июля или в начале августа.