Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

Обновлена база рекламных объявлений, теперь она включает данные, собранные с конца апреля по середину августа текущего года.

Уникальных объявлений: 63 082 254

Уникальных заголовков: 31 939 152

Уникальных текстов: 22 844 882

Уникальных доменов: 487 632

Узнать подробнее и скачать рекламные объявления:

http://www.bukvarix.com/ad-bases.html

Вслед за обновлением программы, мы подготовили выборки для тех, кто не может скачать Букварикс. Все готовые тематические выборки обновлены по базе Букварикс 2.2. В последнее обновление включено 6 новых тем: "Покемоны", "Товары для кошек и собак", "Недвижимость", "Косметика для лица и тела", "Косметика для волос", "Макияж", таким образом сделаны выборки по 51-й популярной тематике.

Просмотреть и скачать выборки (а также списки слов, по которым они сформированы):

http://www.bukvarix.com/keyword-selections.html

СолдафончеГ:
Насколько долго будет в таком случае делаться?

Если делать выборку из базы без индекса, то, в зависимости от сложности условий, время запроса будет составлять от двух-трех часов до полусуток. Т.е. единичная выборка будет сделана намного быстрее, чем индексирование, но время каждой выборки будет большим. Такой вариант хорош для однократного задания, но плох для постоянной работы.

СолдафончеГ:
Шли шестые сутки....

В общем на ssd удалось освободить всего 45 гигов, подумал что этого не хватит, а так как к тому времени был второй день, как база индексировалась, подумал что не стоит её стопать и дождаться!) Завтра в 5 вечера будет ровно неделя как я начал индексировать) Надеюсь еще не долго осталось)

---------- Добавлено 20.08.2016 в 11:58 ----------

Bukvarix, Если я возьму например Penguin, будет ли бытсрее? Просто ключи уже вчера нужны, а конца индексации пока не видать!)

В данной ситуации (когда долгая индексация) можно предложить следущее:

- Все таки остановить индексацию, удалить максимальную базу из PostgreSQL (но скачанный архив оставить).

- Скачать и распаковать расширенную базу (та, которая на ~846 мл. ключевых слов).

- Проиндексировать расширенную базу (индекс создавать на SSD), прикинуть, сколько места занял индекс - чтобы можно было сказать, хватит на индексацию большой базы или нет.

Грубо можно прикинуть, что, по сравнению с расширенной базой, для максимальной на индекс нужно будет приблизительно в 4-5 раз больше места.

- Если места хватает, то значит можно снова вернуться к большой базе (с индексом на SSD).

- Если не хватает, то остается либо вариант использования средней базы, либо использования другой оболочки.

По оболочке можем сказать, что отписывались о том, что Amazing keywords успешно работает с самой максимальной базой:

/ru/forum/comment/14531382

По Penguin-у никто не отписывался, поэтому сложно сказать, потянет или нет (как вариант, можно для теста для начала попробовать на средней (расширенной), если потянет - то тогда пробовать на большой).

И ещё один вариант - можно все-таки порпобовать сделать выборку без индекса, т.е. просто пропустите шаг создания индекса.

Это будет долго, но будет работать, и если нужна именно большая база, а проиндексировать нет возможности, то тоже остается одним из вариантов.

ant_key:
Надо было разбить базу, допустим, на 20 частей и импортировать и индексировать частями на ssd - всё просто.

Спасибо, этот вариант тоже можно рассмотреть, когда нет другого выхода.

den78ru:
Угу, а проще всего заплатить 5 коп. и получить выборку по нужным словам.

Возможно, найдется кто-то с развернутой базой, кто сможет вам сделать выборки за деньги или бесплатно. Мы храним базу в виде архива и заняты сейчас другими задачами, поэтому, к сожалению, не сможем сделать выборку для вас сами.

СолдафончеГ:
25 гигов свободно) могу максимум 40гб сделать свободным.

25 точно не хватит, 40 скорее всего тоже. Но можно попробовать (или освободить больше места), для этого в PGAdmin нужно:

1. Создать tablespace для индекса на нужном диске. Для этого выполнить команду:

CREATE TABLESPACE "SSD" LOCATION 'z:\';

В 'z:\' заменить букву z на букву вашего SSD.

2. При создании индекса указать tablespace, который он должен использовать (по сравнению с обычной командой добавляется в конце TABLESPACE "SSD"):

CREATE INDEX "eng_data_table_idx" ON "eng_data_table" USING gin ((to_tsvector('english'::regconfig, ("keyword")::text))) TABLESPACE "SSD";

P.S. Для удаления индекса и tablespace (чтобы не занимали место) нужно использовать следующие команды:

drop INDEX "eng_data_table_idx";
DROP TABLESPACE "SSD";

СолдафончеГ:
1. сделал
2. ОЗУ 8гб всего. SSD есть, но места не хватит.

А нельзя нажать на паузу, бутнуть комп, а потом продолжить?
Думаю пару суток точно будет индексировать!)

Приостановить индексацию (а потом продолжить) нельзя, можно только отменить и запустить заново.

На 8 ГБ ОЗУ для максимальной базы придется долго ждать завершения индексации, там зависимость нелинейная, т.е. нельзя сказать что вариант с 8 ГБ ОЗУ и, например, 32 ГБ ОЗУ будет различаться по скорости в 4 раза, различие будет больше.

Сколько у вас места на SSD? Есть вариант попробовать (если места хватит) создать индекс именно там, все равно это будет быстрее.

Если найдется достаточно места, то подскажем, что и как написать для создания индекса именно на SSD.

СолдафончеГ:
Bukvarix, Не подскажите, МАКСИМАЛЬНАЯ БАЗА сейчас на пункте 4. Индексируем таблицу . Уже 17 часов цифры в углу бегут) Это норм? Компьютер вроде не слабый, настроил всё ок.

Для самой большой английской базы (та, в которой ~3,4 млрд. ключевых слов) время индексации может быть довольно длительным и занимать больше суток.

На что стоит обратить внимание:

1. Не забудьте поменять настройки сервера по умолчанию (это очень важно): http://www.bukvarix.com/english-keywords_postgresql-setup.html

2. На достаточный объем ОЗУ. Для минимальной базы хватит и ~6 Gb, для средней 8-16 Gb, а для максимальной от 32 Gb.

Если столько ОЗУ нет, но все равно хочется самую большую базу, то, если есть SSD и позволяет место, установите на SSD как сервер, так и базу - это позволит частично компенсировать недостаток ОЗУ.

P.S. Индексация - самый длительный по времени процесс, но после ее выполнения выборки будут работать намного быстрее.

Скачивайте новую версию Букварикса 2.2 - база ключевых слов увеличена до 1,5 млрд. и обновлена (в частности, можно найти такие горячие темы, как игра pokemon go), обновлены также частотности (июнь-июль этого года).

http://www.bukvarix.com/download.html

asp1rin76:
Bukvarix, здорово!
Как идея: поскольку срез идет с периодичностью 1 раз в 1-2 месяца, возможно стоит ввести коэффициент для сезонных ключей? навроде (отношение текущей частоты "!запроса" к максимальной за всё время, он будет индикативом сезонности и/или тренда - просто как идея))

Спасибо за идею, мы храним историю частотностей и позже вернемся и к трендам в каком-либо виде и к выделению сезонных ключей, но это будет позже, после выхода онлайн-версии программы.

asp1rin76:

Планируется ли обновление базы? Если да, то как часто?

Мы обновляем базу (слова и частотности) примерно раз в полтора-два месяца. Полную историю обновлений можно увидеть здесь: http://www.bukvarix.com/bukvarix-versions.html

Следующее обновление базы будет примерно в конце июля или в начале августа.

Всего: 641