поиск одинаковых картинок

12
milokv
На сайте с 02.03.2006
Offline
80
#11

Как раз на эту тему я поднимал топик по поводу ворованного дизайна. Вот если Яндекс или другие поисковики сделают сканирование картинок хотя бы по контрольной сумме, то воровство дизайна сайта (полное или частичное) могло бы приводить к некой пессимизации дубликата.

Кстати, я так и не получил внятного ответа в своей теме. Думаю, что это нас еще ждет в будущем.

moldu
На сайте с 27.04.2006
Offline
432
#12

Люди, опомнитесь, какие контрольные суммы, какое побайтовое сравнение?!?! 🤣 Они могут быть одинаковыми только у одного и того же файла, смена формата, разрешения, степени сжатия, одного пикселя, как писал ksm и это будет ДРУГОЙ файл и другая контрольная сумма. Технология поиска одинаковых изображений явно будет строится не по контрольным суммам и побайтовому сравнению.

Глаза боятся, а руки-крюки.
S
На сайте с 18.09.2006
Offline
110
#13

лично мне кажеться, что на контрольных суммах далеко не уедешь, смысл будет очень терятся.тут ближе к нейросетям и распознаванием образов - это уже давно как решённая (решаемая) задача. разве не так?

мне нужен был этот поиск в достаточно оригинальных целях 🤣 , но скажем где он бы 100% пригодился (из пракитки):

дизайнер сотворил себе логотип, а через месяц узнал что у какой-то фирмы где-то в норвегии (фирма чем-то далёким занимается, адрес не запомнил) - 100% такой логотип, с одним отличием - другой цвет фона, и сам значёк сплюснутый.

и вряд ли они использовали ту же идею что и дизайнер - знак СССР 😂

K
На сайте с 14.08.2006
Offline
56
ksm
#14
moldu:
Люди, опомнитесь, какие контрольные суммы, какое побайтовое сравнение?!?! 🤣 Они могут быть одинаковыми только у одного и того же файла, смена формата, разрешения, степени сжатия, одного пикселя, как писал ksm и это будет ДРУГОЙ файл и другая контрольная сумма. Технология поиска одинаковых изображений явно будет строится не по контрольным суммам и побайтовому сравнению.

Ну если нужно решить задачу поиска именно абсолютно одинаковых рисунков, то это теоретически возможно. Перед расчетом контрольной суммы и записью этой информации в базу сначала любой рисунок конвертится например в raw 24bit bmp и только потом производятся все действия. Аналогично и для заданного юзером рисунка. Тогда будет пофигу на формат файла.

Но это не решает проблемы изменения поиска похожих рисунков, так степень похожести - субъективная величина. Здест возникает проблема конвертации растра в вектор, так как только с векторным рисунком можно хоть как-то решать проблему сходства независимо от разрешения, глубины цвета и прочих растровых параметров.

SEManiak:

лично мне кажеться, что на контрольных суммах далеко не уедешь, смысл будет очень терятся.тут ближе к нейросетям и распознаванием образов - это уже давно как решённая (решаемая) задача. разве не так?

Не так. Хорошие пример - капчи. Если бы задача была решена, то проблемы распознавания капчей просто бы не существовало. А капчи - это ведь простой пример.

Что уж говорит о том, как найти, например, все цифровые фотографии одной художественной картины в интернете (только не говорите мне про "Черный квадрат" Малевича :) )

QAвед-sunтехник
S
На сайте с 18.09.2006
Offline
110
#15
ksm:
Не так. Хорошие пример - капчи. Если бы задача была решена, то проблемы распознавания капчей просто бы не существовало. А капчи - это ведь простой пример.

Что уж говорит о том, как найти, например, все цифровые фотографии одной художественной картины в интернете (только не говорите мне про "Черный квадрат" Малевича :) )

возможно это предновогодний бред (но напишу пока не забыл).

с капчами разговор немного другой, но для всех цифровых фото одной картины можно было бы сделать что-то похожее:

- все картинки в кеше хранятся в одном формате (под который заточены структуры, оптимизация памяти, файловая система, етц), картинки хранятся в формате с беспотерньым сжатием (дабы минимизировать погрешности)

- когда указываем картинку семпл, похожие к которой надо найти, - конвертируем её в наш формат и вычисляем расстояние левенштайна (кол-во "перестановок") для подозрительных кандидатов (те, для которых угол между взвешенымивектором используемых цветов с тем же вектором для картинки семпла меньше порога)

уверен, что с картинками есть и более изящные решения - я просто выразился основываясь на тех знаниях что есть.

надеюсь такую фичу скоро реализуют наши любимые ПС :)

moldu
На сайте с 27.04.2006
Offline
432
#16
ksm:
Ну если нужно решить задачу поиска именно абсолютно одинаковых рисунков, то это теоретически возможно. Перед расчетом контрольной суммы и записью этой информации в базу сначала любой рисунок конвертится например в raw 24bit bmp и только потом производятся все действия. Аналогично и для заданного юзером рисунка. Тогда будет пофигу на формат файла

Это будет поиск не одинаковых рисунков, а одинаковых ФАЙЛОВ, пусть и графических. Или Вы думаете что возможно заставить всех, я повторюсь, ВСЕХ пользователей хранить графику в одном и том же разрешении, с одними и теми же настройками изображения (загляните в настройки фотошопа на досуге, а есть еще и плагины ;) и кроме фотошопа программ по работе с графикой много)? Иначе каким образом будут получены одинаковые контрольные файлы?

SEManiak:
для всех цифровых фото одной картины можно было бы сделать что-то похожее:
- все картинки в кеше хранятся в одном формате (под который заточены структуры, оптимизация памяти, файловая система, етц), картинки хранятся в формате с беспотерньым сжатием (дабы минимизировать погрешности)
- когда указываем картинку семпл, похожие к которой надо найти, - конвертируем её в наш формат и вычисляем расстояние левенштайна (кол-во "перестановок") для подозрительных кандидатов (те, для которых угол между взвешенымивектором используемых цветов с тем же вектором для картинки семпла меньше порога)

Ответ аналогичен ответу на верхнюю цитату :p

S
На сайте с 18.09.2006
Offline
110
#17
moldu:
Ответ аналогичен ответу на верхнюю цитату :p

без фундаментальных знаний я чёткий алгоритм придумать не смогу, тем более что кручусь в текстовом поиске, а не в поиске по аудио/видео/графическим файлам (который кстате очень плотно исследует гугл.

про разные форматы сжатия я прекрассно знаю, и тот же ИрфранВью (или как его там) обладает большим кол-вом встроеных алгоритмов ресайза (для примера).

поэтому я и предложил все картинки переводить в общий формат, несжатый и возможно неким образом апроксимируя точки, цвет которых не точный (между опорными). таким образом для почти одинаковых картинок, будут отличатся оттенки пикселей и соотв-но величина угла между векторами характеристик будет маленькая.

вобщем это не моя парафия - надеюсь сведующие люди Там, этим занимаются :)

зы. moldu, аватар темный. с праздником!! 🍾

Zlo_606ep
На сайте с 14.12.2006
Offline
129
#18

на локали duр detector нормально работает, через контрольную сумму картинки сравнивает при 99% совпадения почти все получаются идентичными. Ну, где копирайт другой, компрессия, формат, даже гамма - всё различает, хотя иногда похожие по стилистике картинки определяет как копии - какой нибудь предмет на равномерном и одинаковом фоне. Я думаю для веба такое можно сделать, даже я мог бы сделать, но где взять такие вычислительные мощности?

K
На сайте с 14.08.2006
Offline
56
ksm
#19
moldu:
Это будет поиск не одинаковых рисунков, а одинаковых ФАЙЛОВ, пусть и графических. Или Вы думаете что возможно заставить всех, я повторюсь, ВСЕХ пользователей хранить графику в одном и том же разрешении, с одними и теми же настройками изображения (загляните в настройки фотошопа на досуге, а есть еще и плагины ;) и кроме фотошопа программ по работе с графикой много)? Иначе каким образом будут получены одинаковые контрольные файлы?

Вообще я имел в виду только растровые изображения и брать только матрицу пикселов из графического файла. В данном случае один и тот же рисунок, сохраненный в разных форматах разными программами без потерь будет иметь одну и ту же матрицу пикселов, приведенную к 24 битной или 48 битной основе.

Поэтому и контрольные суммы совпадут.

В данном понятии одинаковые растровые рисунки - это рисунки сопадающие по-пиксельно.

При чем тут программы, плагины фотошопа?

А разрешение - это вообще параметр для печати фактически.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий