Оптимизация запроса с большим объемом данных

77

sanich_

27 октября 2015, 16:55

763

Добрый день.

Прошу помощи у профессионалов по ускорению запроса для Mysql

Есть таблица email_subscribe с набором значений:

id      ekey

1       ключ1

2       ключ1

3       ключ2

4       ключ1

5       ключ1

Необходимо получить дубликаты по полю "ekey", которые в дальнейшем можно удалить

Сделал 2 запроса, они выводят, список нужных дублей по полю "ekey", которые можно потом удалить...

SELECT t.* FROM email_subscribe t  

LEFT JOIN (SELECT id FROM email_subscribe GROUP BY ekey) as t2 ON t.id=t2.id  

WHERE t2.id IS NULL

select * from email_subscribe 

where id not in (SELECT id FROM email_subscribe GROUP BY ekey)

Результат двух запросов правильный и идентичный:

id      ekey

2       ключ1

4       ключ1

5       ключ1

Проблема в том, что при больших объемах данных (если в таблице email_subscribe будет 700 000 записей) эти запросы очень долго выполняются, не могу дождаться завершения запроса на локальном хосте при ~160 000 строк

Индексы по нужным полям таблицы email_subscribe поставил

Привожу explain запроса:

explain select * from email_subscribe

where id not in (SELECT id FROM email_subscribe GROUP BY ekey)

Привожу explain запроса:

explain SELECT t.* FROM email_subscribe t

LEFT JOIN (SELECT id FROM email_subscribe GROUP BY ekey) as t2 ON t.id=t2.id  

WHERE t2.id IS NULL

В чем причина длительного выполнения обоих запросов?

Лучший анализ бэков конкурентов - Yazzle (http://www.yazzle.ru/seo/8945eae37b4e842893f9c46afa70d80e/)

427

siv1987

27 октября 2015, 17:23

#1

SELECT t1.id FROM table t1 LEFT JOIN table t2 ON t1.ekey=t2.ekey WHERE t1.id>t2.id

+ индекс по полю ekey

775

edogs software

27 октября 2015, 17:44

#2

sanich_:
Добрый день.

Прошу помощи у профессионалов по ускорению запроса для Mysql
Есть таблица email_subscribe с набором значений:

id      ekey

1       ключ1

2       ключ1

3       ключ2

4       ключ1

5       ключ1

Необходимо получить дубликаты по полю "ekey", которые в дальнейшем можно удалить

Если нужно просто удалить дубликаты, то есть тупой и скоростной способ


ALTER IGNORE TABLE `tbl` ADD UNIQUE ( `ekey` )

ALTER TABLE `tbl` DROP INDEX `ekey`;

Если у Вас innoDB, то добавьте первой строкой


set session old_alter_table=1;

1

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft

77

sanich_

29 октября 2015, 12:34

#3

edogs:
Если нужно просто удалить дубликаты, то есть тупой и скоростной способ


ALTER IGNORE TABLE `tbl` ADD UNIQUE ( `ekey` )

ALTER TABLE `tbl` DROP INDEX `ekey`;

Если у Вас innoDB, то добавьте первой строкой


set session old_alter_table=1;

Дело в том что мне не нужно удалять дубликаты, мне нужно их получить, чтобы в дальнейшем обработать...

---------- Добавлено 29.10.2015 в 15:40 ----------

siv1987:
SELECT t1.id FROM table t1 LEFT JOIN table t2 ON t1.ekey=t2.ekey WHERE t1.id>t2.id

+ индекс по полю ekey

Исходные значения в таблице:

id      ekey 

1       ключ1 

2       ключ1 

3       ключ2 

4       ключ1 

5       ключ1

Не пойму как работает запрос, он возвращает мне неправильное множество:

А должен вернуть повторяющие по полю ekey записи:

id      ekey 

2       ключ1 

4       ключ1 

5       ключ1

427

siv1987

29 октября 2015, 14:36

#4

GROUP BY t1.id

133

Хелпзонович

29 октября 2015, 15:31

#5


select id,ekey, count(id) as c from email_subscribe  group by ekey  having c>1

1

Вы там держитесь! Хорошего вам настроения. Здоровья.

55

alexvaleev

29 октября 2015, 18:19

#6

select distinct a.id, a.ekey from email_subscribe a inner join email_subscribe b on a.ekey=b.ekey where a.id>b.id

А вообще так делать нельзя, хоть в mysql и работает:

SELECT id FROM email_subscribe GROUP BY ekey

Блог (http://alexvaleev.ru) Всем роуп! (https://rujump.ru/)

A

130

admak

30 октября 2015, 05:45

#7

Хелпзонович:


select id,ekey, count(id) as c from email_subscribe  group by ekey  having c>1

Это правильный ответ. Запрос выдаст только дупы, их можно смело удалять. После удаления запрос нужно запустить еще раз для удаления следующей партии дупов. И так несколько раз.

Нужен еще индекс по полю ekey. Работает быстро, гонял похожие запросы на табличках по несколько лямов записей.

ps: join-ы и т.д. для таких целей совсем не нужны.

А вообще так делать нельзя, хоть в mysql и работает:

SELECT id FROM email_subscribe GROUP BY ekey

В классическом SQL нужно к полю id добавить одну из функций: min(), max(), first(), last().

MySQL не заморачивается с этим и вариант с id работает. :)

Запрос выдаст id всех уникальных записей (которые нельзя удалять). Все остальные id, которые не выдал запрос - дупы.

1

.............

Нужна помошь по SQL Как из одной таблицы Сложный запрос, три таблицы

Все что нужно знать о DDоS-атаках грамотному менеджеру

VK приобрела 70% в структуре компании-разработчика red_mad_robot