поиск одинаковых картинок

SEManiak · 2006-12-30T13:05:54.0000000Z

Есть задача - найти картинки которыя являются копией даной (идентичной) Пробежался по гуглу, яндексу, пиксерчу - никто из них такого не предлагает :confused: и не смотрите на меня так - новый год ещё не начал праздновать :D всех с наступающим :idea: всем в обязательном порядке отдохнуть :)

80

milokv

30 декабря 2006, 19:52

#11

Как раз на эту тему я поднимал топик по поводу ворованного дизайна. Вот если Яндекс или другие поисковики сделают сканирование картинок хотя бы по контрольной сумме, то воровство дизайна сайта (полное или частичное) могло бы приводить к некой пессимизации дубликата.

Кстати, я так и не получил внятного ответа в своей теме. Думаю, что это нас еще ждет в будущем.

Вопрос по регистрам в Как они сделали Cumulative Яндекс кобласит

432

moldu

30 декабря 2006, 20:13

#12

Люди, опомнитесь, какие контрольные суммы, какое побайтовое сравнение?!?! 🤣 Они могут быть одинаковыми только у одного и того же файла, смена формата, разрешения, степени сжатия, одного пикселя, как писал ksm и это будет ДРУГОЙ файл и другая контрольная сумма. Технология поиска одинаковых изображений явно будет строится не по контрольным суммам и побайтовому сравнению.

Глаза боятся, а руки-крюки.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

110

SEManiak

31 декабря 2006, 09:07

#13

лично мне кажеться, что на контрольных суммах далеко не уедешь, смысл будет очень терятся.тут ближе к нейросетям и распознаванием образов - это уже давно как решённая (решаемая) задача. разве не так?

мне нужен был этот поиск в достаточно оригинальных целях 🤣 , но скажем где он бы 100% пригодился (из пракитки):

дизайнер сотворил себе логотип, а через месяц узнал что у какой-то фирмы где-то в норвегии (фирма чем-то далёким занимается, адрес не запомнил) - 100% такой логотип, с одним отличием - другой цвет фона, и сам значёк сплюснутый.

и вряд ли они использовали ту же идею что и дизайнер - знак СССР 😂

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

56

ksm

31 декабря 2006, 10:20

#14

moldu:
Люди, опомнитесь, какие контрольные суммы, какое побайтовое сравнение?!?! 🤣 Они могут быть одинаковыми только у одного и того же файла, смена формата, разрешения, степени сжатия, одного пикселя, как писал ksm и это будет ДРУГОЙ файл и другая контрольная сумма. Технология поиска одинаковых изображений явно будет строится не по контрольным суммам и побайтовому сравнению.

Ну если нужно решить задачу поиска именно абсолютно одинаковых рисунков, то это теоретически возможно. Перед расчетом контрольной суммы и записью этой информации в базу сначала любой рисунок конвертится например в raw 24bit bmp и только потом производятся все действия. Аналогично и для заданного юзером рисунка. Тогда будет пофигу на формат файла.

Но это не решает проблемы изменения поиска похожих рисунков, так степень похожести - субъективная величина. Здест возникает проблема конвертации растра в вектор, так как только с векторным рисунком можно хоть как-то решать проблему сходства независимо от разрешения, глубины цвета и прочих растровых параметров.

SEManiak:

лично мне кажеться, что на контрольных суммах далеко не уедешь, смысл будет очень терятся.тут ближе к нейросетям и распознаванием образов - это уже давно как решённая (решаемая) задача. разве не так?

Не так. Хорошие пример - капчи. Если бы задача была решена, то проблемы распознавания капчей просто бы не существовало. А капчи - это ведь простой пример.

Что уж говорит о том, как найти, например, все цифровые фотографии одной художественной картины в интернете (только не говорите мне про "Черный квадрат" Малевича :) )

QAвед-sunтехник

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

110

SEManiak

31 декабря 2006, 13:05

#15

ksm:
Не так. Хорошие пример - капчи. Если бы задача была решена, то проблемы распознавания капчей просто бы не существовало. А капчи - это ведь простой пример.

Что уж говорит о том, как найти, например, все цифровые фотографии одной художественной картины в интернете (только не говорите мне про "Черный квадрат" Малевича :) )

возможно это предновогодний бред (но напишу пока не забыл).

с капчами разговор немного другой, но для всех цифровых фото одной картины можно было бы сделать что-то похожее:

- все картинки в кеше хранятся в одном формате (под который заточены структуры, оптимизация памяти, файловая система, етц), картинки хранятся в формате с беспотерньым сжатием (дабы минимизировать погрешности)

- когда указываем картинку семпл, похожие к которой надо найти, - конвертируем её в наш формат и вычисляем расстояние левенштайна (кол-во "перестановок") для подозрительных кандидатов (те, для которых угол между взвешенымивектором используемых цветов с тем же вектором для картинки семпла меньше порога)

уверен, что с картинками есть и более изящные решения - я просто выразился основываясь на тех знаниях что есть.

надеюсь такую фичу скоро реализуют наши любимые ПС :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

432

moldu

31 декабря 2006, 13:31

#16

ksm:
Ну если нужно решить задачу поиска именно абсолютно одинаковых рисунков, то это теоретически возможно. Перед расчетом контрольной суммы и записью этой информации в базу сначала любой рисунок конвертится например в raw 24bit bmp и только потом производятся все действия. Аналогично и для заданного юзером рисунка. Тогда будет пофигу на формат файла

Это будет поиск не одинаковых рисунков, а одинаковых ФАЙЛОВ, пусть и графических. Или Вы думаете что возможно заставить всех, я повторюсь, ВСЕХ пользователей хранить графику в одном и том же разрешении, с одними и теми же настройками изображения (загляните в настройки фотошопа на досуге, а есть еще и плагины ;) и кроме фотошопа программ по работе с графикой много)? Иначе каким образом будут получены одинаковые контрольные файлы?

SEManiak:
для всех цифровых фото одной картины можно было бы сделать что-то похожее:
- все картинки в кеше хранятся в одном формате (под который заточены структуры, оптимизация памяти, файловая система, етц), картинки хранятся в формате с беспотерньым сжатием (дабы минимизировать погрешности)
- когда указываем картинку семпл, похожие к которой надо найти, - конвертируем её в наш формат и вычисляем расстояние левенштайна (кол-во "перестановок") для подозрительных кандидатов (те, для которых угол между взвешенымивектором используемых цветов с тем же вектором для картинки семпла меньше порога)

Ответ аналогичен ответу на верхнюю цитату :p

Яндекс.Вебмастер - пропали сайты Hetzner начал выгонять хостеров Twitter исключил из лимита

S

110

SEManiak

31 декабря 2006, 13:57

#17

moldu:
Ответ аналогичен ответу на верхнюю цитату :p

без фундаментальных знаний я чёткий алгоритм придумать не смогу, тем более что кручусь в текстовом поиске, а не в поиске по аудио/видео/графическим файлам (который кстате очень плотно исследует гугл.

про разные форматы сжатия я прекрассно знаю, и тот же ИрфранВью (или как его там) обладает большим кол-вом встроеных алгоритмов ресайза (для примера).

поэтому я и предложил все картинки переводить в общий формат, несжатый и возможно неким образом апроксимируя точки, цвет которых не точный (между опорными). таким образом для почти одинаковых картинок, будут отличатся оттенки пикселей и соотв-но величина угла между векторами характеристик будет маленькая.

вобщем это не моя парафия - надеюсь сведующие люди Там, этим занимаются :)

зы. moldu, аватар темный. с праздником!! 🍾

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

129

Zlo_606ep

31 декабря 2006, 14:28

#18

на локали duр detector нормально работает, через контрольную сумму картинки сравнивает при 99% совпадения почти все получаются идентичными. Ну, где копирайт другой, компрессия, формат, даже гамма - всё различает, хотя иногда похожие по стилистике картинки определяет как копии - какой нибудь предмет на равномерном и одинаковом фоне. Я думаю для веба такое можно сделать, даже я мог бы сделать, но где взять такие вычислительные мощности?

Google убрал кнопку для VK рекламная сеть Не будет ничего, кроме

K

56

ksm

31 декабря 2006, 17:08

#19

moldu:
Это будет поиск не одинаковых рисунков, а одинаковых ФАЙЛОВ, пусть и графических. Или Вы думаете что возможно заставить всех, я повторюсь, ВСЕХ пользователей хранить графику в одном и том же разрешении, с одними и теми же настройками изображения (загляните в настройки фотошопа на досуге, а есть еще и плагины ;) и кроме фотошопа программ по работе с графикой много)? Иначе каким образом будут получены одинаковые контрольные файлы?

Вообще я имел в виду только растровые изображения и брать только матрицу пикселов из графического файла. В данном случае один и тот же рисунок, сохраненный в разных форматах разными программами без потерь будет иметь одну и ту же матрицу пикселов, приведенную к 24 битной или 48 битной основе.

Поэтому и контрольные суммы совпадут.

В данном понятии одинаковые растровые рисунки - это рисунки сопадающие по-пиксельно.

При чем тут программы, плагины фотошопа?

А разрешение - это вообще параметр для печати фактически.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов