[структура базы] много данных

334

TF-Studio

7 ноября 2014, 09:42

700

Есть чудная БД.

key - text

wordstat - int

id - int (AI)

записей больше 20кк (пока перегоняю, точно не известно).

Делаю на mysql, но есть сомнения, в правильности этого выбора

Выборки будут:

select from where key like '%some_string%'

Если вкинуть сразу 500-1000 ключей на like, то есть предположение, что все загнется.

В принципе памяти много на машине, наверное, есть какой-то вариант загнать всё в память и там уж выполнять поиск. (скопировать в таблицу type MEMORY)

Возможно есть иные технические решения для подобных размеров

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).

1076

Mik Foxi

7 ноября 2014, 09:46

#1

like '%some_string%' и при одном ключе будет грузить все на 100% и работать медленно. сделать тыщу выборок это вообще будет нереально. нужны индексы, но хз как в такой ситуации их применить.

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.

501

Solmyr

7 ноября 2014, 09:52

#2

А именно LIKE %some_string% ?

Может подойдет алгоритм поиска по словам?

Например если some_string = bb то

aaa bb cc - находит

bb cc - находит

aa bbc cc - не находит.

P.S. А вообще у мускуля есть индекс типа FULLTEXT именно для LIKE %some_string% только я к сожалению никогда не задумывался как именно и насколько эффективно он работает.

334

TF-Studio

7 ноября 2014, 09:55

#3

пример.

Есть множество записей:

определить причину поломки ноутбука

(подобного типа)

Мне надо для сайта найти все ключи ноутбук

like - тут видится единственный вариант.

500 - просто для скорости, 1 раз закинул задачу и пусть себе скрипт ищет.

Аргументы почему не нужно Наполнить сайт статьями от Метрика показывает визиты с

ДП

203

Дикий пионер

7 ноября 2014, 09:57

#4

А в сторону всяких sphinx, elasticsearch не смотрели? Они же там и морфологию умеют и как раз для поиска по словам заточены.

D

153

Dinozavr

7 ноября 2014, 10:01

#5

Дикий пионер:
elasticsearch

должно помочь

501

Solmyr

7 ноября 2014, 10:02

#6

TF-Studio:
(подобного типа)
Мне надо для сайта найти все ключи ноутбук
like - тут видится единственный вариант.

Хорошо, а если по "ноутбук" будет находить "три ноутбука", но не будет находить "три зеленыхноутбуков" - так подойдет?

334

TF-Studio

7 ноября 2014, 11:27

#7

мне нужны все вхождения, потому слово режется до минимума.

Допустим для сайта по драйверам из это базы мы начнем искать: like '%драйвер%' итд...

sphinx - раньше юзал (чудная вещь), но на малых базах, не уверен, что он спокойно осилит 4Гб и будет быстрее like из memory

Соответственно и создал тему, вдруг у кого есть подобный опыт

[Удален]

7 ноября 2014, 11:36

#8

TF-Studio, стоит сначала с базой поработать, привести её к удобному виду, создать индексы, определить исходную форму слов...

а уже потом делать выборки и обновления :)

D

153

Dinozavr

7 ноября 2014, 12:08

#9

TF-Studio, в качестве примера: есть elasticsearch база на прим. 50кк документов. общий размер - 40ГБ. вчера нужна была выборка по префиксу ХХХ, т.е. находится

XXXYYY AAAA

AAAA XXXYYY

я делал выборки по 1000 штук, время на 1 - 0,2 секунды

сервер hetzner с 32ГБ РАМ

396

Оптимизайка

7 ноября 2014, 12:21

#10

like '%xxx%' не использует индексы, поэтому никак нельзя так делать. а вот like 'xxx%' использует - поэтому вам надо бить по словам таблицу или использовать полнотекстовый поиск.

1

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!

Что делать, чтобы попасть в ответы Google Bard

Яндекс Вебмастер вынес товарные фиды в отдельный раздел