Бесплатный дамп базы английских ключевых слов

Bukvarix
На сайте с 27.02.2013
Offline
134
#61
СолдафончеГ:
Bukvarix, Не подскажите, МАКСИМАЛЬНАЯ БАЗА сейчас на пункте 4. Индексируем таблицу . Уже 17 часов цифры в углу бегут) Это норм? Компьютер вроде не слабый, настроил всё ок.

Для самой большой английской базы (та, в которой ~3,4 млрд. ключевых слов) время индексации может быть довольно длительным и занимать больше суток.

На что стоит обратить внимание:

1. Не забудьте поменять настройки сервера по умолчанию (это очень важно): http://www.bukvarix.com/english-keywords_postgresql-setup.html

2. На достаточный объем ОЗУ. Для минимальной базы хватит и ~6 Gb, для средней 8-16 Gb, а для максимальной от 32 Gb.

Если столько ОЗУ нет, но все равно хочется самую большую базу, то, если есть SSD и позволяет место, установите на SSD как сервер, так и базу - это позволит частично компенсировать недостаток ОЗУ.

P.S. Индексация - самый длительный по времени процесс, но после ее выполнения выборки будут работать намного быстрее.

СолдафончеГ
На сайте с 04.12.2008
Offline
96
#62
Bukvarix:
Для самой большой английской базы (та, в которой ~3,4 млрд. ключевых слов) время индексации может быть довольно длительным и занимать больше суток.

На что стоит обратить внимание:

1. Не забудьте поменять настройки сервера по умолчанию (это очень важно): http://www.bukvarix.com/english-keywords_postgresql-setup.html

2. На достаточный объем ОЗУ. Для минимальной базы хватит и ~6 Gb, для средней 8-16 Gb, а для максимальной от 32 Gb.

Если столько ОЗУ нет, но все равно хочется самую большую базу, то, если есть SSD и позволяет место, установите на SSD как сервер, так и базу - это позволит частично компенсировать недостаток ОЗУ.

P.S. Индексация - самый длительный по времени процесс, но после ее выполнения выборки будут работать намного быстрее.

1. сделал

2. ОЗУ 8гб всего. SSD есть, но места не хватит.

А нельзя нажать на паузу, бутнуть комп, а потом продолжить?

Думаю пару суток точно будет индексировать!)

Bukvarix
На сайте с 27.02.2013
Offline
134
#63
СолдафончеГ:
1. сделал
2. ОЗУ 8гб всего. SSD есть, но места не хватит.

А нельзя нажать на паузу, бутнуть комп, а потом продолжить?
Думаю пару суток точно будет индексировать!)

Приостановить индексацию (а потом продолжить) нельзя, можно только отменить и запустить заново.

На 8 ГБ ОЗУ для максимальной базы придется долго ждать завершения индексации, там зависимость нелинейная, т.е. нельзя сказать что вариант с 8 ГБ ОЗУ и, например, 32 ГБ ОЗУ будет различаться по скорости в 4 раза, различие будет больше.

Сколько у вас места на SSD? Есть вариант попробовать (если места хватит) создать индекс именно там, все равно это будет быстрее.

Если найдется достаточно места, то подскажем, что и как написать для создания индекса именно на SSD.

СолдафончеГ
На сайте с 04.12.2008
Offline
96
#64
Bukvarix:

Сколько у вас места на SSD? Есть вариант попробовать (если места хватит) создать индекс именно там, все равно это будет быстрее.
Если найдется достаточно места, то подскажем, что и как написать для создания индекса именно на SSD.

25 гигов свободно) могу максимум 40гб сделать свободным.

Bukvarix
На сайте с 27.02.2013
Offline
134
#65
СолдафончеГ:
25 гигов свободно) могу максимум 40гб сделать свободным.

25 точно не хватит, 40 скорее всего тоже. Но можно попробовать (или освободить больше места), для этого в PGAdmin нужно:

1. Создать tablespace для индекса на нужном диске. Для этого выполнить команду:

CREATE TABLESPACE "SSD" LOCATION 'z:\';

В 'z:\' заменить букву z на букву вашего SSD.

2. При создании индекса указать tablespace, который он должен использовать (по сравнению с обычной командой добавляется в конце TABLESPACE "SSD"):

CREATE INDEX "eng_data_table_idx" ON "eng_data_table" USING gin ((to_tsvector('english'::regconfig, ("keyword")::text))) TABLESPACE "SSD";

P.S. Для удаления индекса и tablespace (чтобы не занимали место) нужно использовать следующие команды:

drop INDEX "eng_data_table_idx";
DROP TABLESPACE "SSD";

СолдафончеГ
На сайте с 04.12.2008
Offline
96
#66

Шли шестые сутки....

В общем на ssd удалось освободить всего 45 гигов, подумал что этого не хватит, а так как к тому времени был второй день, как база индексировалась, подумал что не стоит её стопать и дождаться!) Завтра в 5 вечера будет ровно неделя как я начал индексировать) Надеюсь еще не долго осталось)

---------- Добавлено 20.08.2016 в 11:58 ----------

Bukvarix, Если я возьму например Penguin, будет ли бытсрее? Просто ключи уже вчера нужны, а конца индексации пока не видать!)

AK
На сайте с 23.02.2009
Offline
117
#67

Надо было разбить базу, допустим, на 20 частей и импортировать и индексировать частями на ssd - всё просто.

den78ru
На сайте с 12.04.2006
Offline
396
#68
ant_key:
всё просто

Угу, а проще всего заплатить 5 коп. и получить выборку по нужным словам.

Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.
Bukvarix
На сайте с 27.02.2013
Offline
134
#69
СолдафончеГ:
Шли шестые сутки....

В общем на ssd удалось освободить всего 45 гигов, подумал что этого не хватит, а так как к тому времени был второй день, как база индексировалась, подумал что не стоит её стопать и дождаться!) Завтра в 5 вечера будет ровно неделя как я начал индексировать) Надеюсь еще не долго осталось)

---------- Добавлено 20.08.2016 в 11:58 ----------

Bukvarix, Если я возьму например Penguin, будет ли бытсрее? Просто ключи уже вчера нужны, а конца индексации пока не видать!)

В данной ситуации (когда долгая индексация) можно предложить следущее:

- Все таки остановить индексацию, удалить максимальную базу из PostgreSQL (но скачанный архив оставить).

- Скачать и распаковать расширенную базу (та, которая на ~846 мл. ключевых слов).

- Проиндексировать расширенную базу (индекс создавать на SSD), прикинуть, сколько места занял индекс - чтобы можно было сказать, хватит на индексацию большой базы или нет.

Грубо можно прикинуть, что, по сравнению с расширенной базой, для максимальной на индекс нужно будет приблизительно в 4-5 раз больше места.

- Если места хватает, то значит можно снова вернуться к большой базе (с индексом на SSD).

- Если не хватает, то остается либо вариант использования средней базы, либо использования другой оболочки.

По оболочке можем сказать, что отписывались о том, что Amazing keywords успешно работает с самой максимальной базой:

/ru/forum/comment/14531382

По Penguin-у никто не отписывался, поэтому сложно сказать, потянет или нет (как вариант, можно для теста для начала попробовать на средней (расширенной), если потянет - то тогда пробовать на большой).

И ещё один вариант - можно все-таки порпобовать сделать выборку без индекса, т.е. просто пропустите шаг создания индекса.

Это будет долго, но будет работать, и если нужна именно большая база, а проиндексировать нет возможности, то тоже остается одним из вариантов.

ant_key:
Надо было разбить базу, допустим, на 20 частей и импортировать и индексировать частями на ssd - всё просто.

Спасибо, этот вариант тоже можно рассмотреть, когда нет другого выхода.

den78ru:
Угу, а проще всего заплатить 5 коп. и получить выборку по нужным словам.

Возможно, найдется кто-то с развернутой базой, кто сможет вам сделать выборки за деньги или бесплатно. Мы храним базу в виде архива и заняты сейчас другими задачами, поэтому, к сожалению, не сможем сделать выборку для вас сами.

СолдафончеГ
На сайте с 04.12.2008
Offline
96
#70
Bukvarix:

И ещё один вариант - можно все-таки порпобовать сделать выборку без индекса, т.е. просто пропустите шаг создания индекса.
Это будет долго, но будет работать, и если нужна именно большая база, а проиндексировать нет возможности, то тоже остается одним из вариантов.

Насколько долго будет в таком случае делаться?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий