Используйте UNIQUE INDEX для удаления дублей - Веб-строительство

Удаление дублей, базы, и последствие.

nomarketing · 2015-01-19T11:36:29.0000000Z

Вообщем есть, база, в ней есть 6к сообщение, из 6к сообщение наверно 1.5к дубли. Как правильно удалить дубли, что бы не навредить работе бд, т.е изначальной или это не как не повлияет ? Удаление происходит таким запросом. ALTER IGNORE TABLE title ADD UNIQUE INDEX(title); В итоге, как я понял, после выполнение это запроса, индексу title присвоился ключ Unique Но теперь, вот что происходит, при, заполнении формы, если юзер напишет title , и он будет существовать в БД , то вылетит ошибка о том, что такой тайтл уже есть (dublicate entry..) Тогда я делаю след действие, перед отправкой данных в бд, я делаю запрос, в базу, с title который ввел юзер, если его нет, тогда отправляем данные в бд, если есть, пишем что мол введите другой title . Есть ли ошибки в логике ? может что не учел.

427

siv1987

23 января 2015, 12:59

#11

nomarketing:
Ну все таки один вопрос остается пока не решен это удаление дубликатов + ассинхронное удаление по айди из другой таблицы

delete + left join `another_table`

or

delete t from table t left join table_with_title z ON z.id=t.id WHERE z.id IS NULL

204

nomarketing

23 января 2015, 13:20

#12

siv1987:
delete + left join `another_table`
or
delete t from table t left join table_with_title z ON z.id=t.id WHERE z.id IS NULL

А как быть с дубликатами то ?

Я не пойму одну вещь, как при удалении дубликатов отследить айди постов которые удаляются ?

Ну к примеру

ALTER IGNORE TABLE tbl_name ADD UNIQUE INDEX(title);

в tbl_name есть row > id

Вот при удалении, как узнать какой id удалился ?..

Может я не правильно как то логически себе это представляю..

Капитан покидает корабль последним

Как удалить дубликаты новостей mysql help need Как ускорить sql запрос?

1609

SeVlad

23 января 2015, 13:41

#13

nomarketing:
Ну я понял к чему вы клоните

Мб. Но на всяк случай попробую пояснить.

Связи типа "многие-ко-многим" требуют промежуточную таблицу.

В самой базе может не быть видно прямых связей (зависимостей), а только в самом же движке жестко прописано какое поле в какой таблице нужно использовать.

Проще говоря по БД может не быть видно что значение в поле ID_metadata в таблице tbl_meta тоже самое, что и в поле ID_post в таблице tbl_content.

И это не самый сложный случай. Бывает, что к ИДшику поста "подязываются" данные из нескольких таблиц, при этом не по ИД поста, а через одно или несколько промежуточных данных.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

Кто силен в mySQL? Шаблон полной новости DLE Как сделать SQL запрос

204

nomarketing

23 января 2015, 15:41

#14

SeVlad:
Мб. Но на всяк случай попробую пояснить.
Связи типа "многие-ко-многим" требуют промежуточную таблицу.

В самой базе может не быть видно прямых связей (зависимостей), а только в самом же движке жестко прописано какое поле в какой таблице нужно использовать.

Проще говоря по БД может не быть видно что значение в поле ID_metadata в таблице tbl_meta тоже самое, что и в поле ID_post в таблице tbl_content.
И это не самый сложный случай. Бывает, что к ИДшику поста "подязываются" данные из нескольких таблиц, при этом не по ИД поста, а через одно или несколько промежуточных данных.

Ну такое мне вроде небыло известно, но в данном случае мне известно связть между таблицами по айди, ибо там просто вариант всего, только ед не помй как узнать айди удаленных дубликатов.

Просто если бы я знал эти айди я бы мог удалить все айди с другой таблицы.

Excel для SEO: 5 В англоязычном интерфейсе AdWords Google Labs закроет еще

427

siv1987

23 января 2015, 15:48

#15

nomarketing:
ADD UNIQUE INDEX

А нахрена использовать UNIQUE INDEX для удаления дублей? Этот индекс имеет немного другое логическое значение.

Какие отсутствуют в таблице те и удалились. Какие ид отсутствуют можете узнать джоинив другую таблицу в которые есть связь с ними.

Google запустил новый Indexing Google не рекомендует использовать Google прояснил, как обрабатывается

204

nomarketing

23 января 2015, 16:05

#16

siv1987:
А нахрена использовать UNIQUE INDEX для удаления дублей? Этот индекс имеет немного другое логическое значение.
Какие отсутствуют в таблице те и удалились. Какие ид отсутствуют можете узнать джоинив другую таблицу в которые есть связь с ними.

Да, я понимаю что опытный бы юзер понял все, который работает с бд не мало времени :)

Ну я стараюсь понимать, вот на счет последнего предложение не очень понял, какую другую, я тогда если можно показать пример, или написать логические действие.

1. Что использовать вместо ? UNIQUE INDEX ? (Мне нужно что бы в будущем нельзя было вставить один и тот же тайл, поэтому я и решил использовать уникальный индекс.. тем самым удалив дубли)

2.Получается мне нужно сделать две копии таблицы tbl_name и tbl_name_tmp, потом в одной из них, удалить дубликаты, а потом что ? как сделать такое джоин или что там что бы показал какие айди были удалены ?

SEO: почему мы делаем Google: низкий трафик не Структура сайта - использовать

427

siv1987

23 января 2015, 16:23

#17

nomarketing:
1. Что использовать вместо ? UNIQUE INDEX ? (Мне нужно что бы в будущем нельзя было вставить один и тот же тайл, поэтому я и решил использовать уникальный индекс.. тем самым удалив дубли)

В будущем, прежде чем вставлять, проверяйте уникальность значения в бд. UNIQUE INDEX больше подходит для полей которые действительно должны быть уникальными - ид, ключи и пр, тайтл это не совсем то поле. Для удаления используйте пример с первой страницы, для вставки - создайте функцию checkTitle($title) которая будет проверять уникальность тайтла.

nomarketing:
Получается мне нужно сделать две копии таблицы tbl_name и tbl_name_tmp, потом в одной из них, удалить дубликаты, а потом что ?

Нет. Таблицы используйте те, которые у вас связаны с этой.

nomarketing:
как сделать такое джоин или что там что бы показал какие айди были удалены ?

Пример показан выше.

select t.* from table t left join table_with_title z ON z.id=t.id WHERE z.id IS NULL

table_with_title - таблица с тайтлами.

table - связанная таблица

1

Google по-прежнему использует исходные Google: тайтлы с большим 69 букмарклетов, для интернет-маркетологов:

204

nomarketing

23 января 2015, 16:50

#18

siv1987:
В будущем, прежде чем вставлять, проверяйте уникальность значения в бд. UNIQUE INDEX больше подходит для полей которые действительно должны быть уникальными - ид, ключи и пр, тайтл это не совсем то поле. Для удаления используйте пример с первой страницы, для вставки - создайте функцию checkTitle($title) которая будет проверять уникальность тайтла.

Нет. Таблицы используйте те, которые у вас связаны с этой.

Пример показан выше.
select t.* from table t left join table_with_title z ON z.id=t.id WHERE z.id IS NULL
table_with_title - таблица с тайтлами.
table - связанная таблица

Щас попробую ваш пример,

Вопрос на счет проверки тайтла, (я думал сделать проверку таким образом)

1.Сначала уникализируем все тайтлы.

2.Перед вставкой поста, делаем селект из бд, с тайтлом юзера, если не нашли, вставляем, если нашли, возвращаем сообщение что тайтл уже существует.

Все верно ? почему тайтл нельзя уникализировать ? (тогда как лучше посоветуйте)

Вышла новая версия программы Оптимизация конверсии: с чего Каттс: Google оставляет за

427

siv1987

23 января 2015, 17:31

#19

nomarketing:
2.Перед вставкой поста, делаем селект из бд, с тайтлом юзера, если не нашли, вставляем, если нашли, возвращаем сообщение что тайтл уже существует.

Для этого первый пункт не нужен.

nomarketing:
почему тайтл нельзя уникализировать ?

Никто не говорит что нельзя, логически это не обоснованно. По природе своей тайтл не уникальное значение, вполне логически что могут быть две новости с одинаковым тайтлом. Если хотите исключить дубли - проверяйте перед вставкой.

В AdWords появилась поддержка В бирже статей Articles.Sape Как работали ссылки в

204

nomarketing

23 января 2015, 18:28

#20

siv1987:
Для этого первый пункт не нужен.

Никто не говорит что нельзя, логически это не обоснованно. По природе своей тайтл не уникальное значение, вполне логически что могут быть две новости с одинаковым тайтлом. Если хотите исключить дубли - проверяйте перед вставкой.

Спасибо за приме выше с IS NULL нашел способ естесвенного отбора.

А что посоветуете на счетй тайтлов ? вообщем в действительности есть много постов с одинаковыми тайтлами, но с разным описанием..

Вот сижу думаю что с ними делать, или ниделать ничего, дело в том что есть сайт, на нем иногда юзеры постят одни и теже сообщение но в разное время.

Вот не могу понять как придумать, что бы можно отследить есть ли такое уже в базе или нету..

естесвенно без супернагрузок на бд

Автоматизация поиска клиентов для Джон Мюллер рассказал о Поведенческие факторы ранжирования или

Что такое Power BI и зачем это нужно бизнесу

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Удаление дублей, базы, и последствие.