Шинглы для поиска медиа информации

DD
На сайте с 27.11.2006
Offline
7
471

Здравствуйте!

шинглы используются для поиска нечетких дубликатов текстовых документов

а кто нибудь пробовал применять их для поиска дубликатов медиа файлов (например картинок)?

Mmonger
На сайте с 01.12.2005
Offline
165
#1
DmitryDV:
Здравствуйте!
шинглы используются для поиска нечетких дубликатов текстовых документов

а кто нибудь пробовал применять их для поиска дубликатов медиа файлов (например картинок)?

Используются широко в спам-фильтрах.

Использование шинглов малоэффективно для поиска медиа-файлов, т.к. к примеру, копия той же самой картинки в другом разрешении с их помощью не будет найдена, т.е. сама суть поиска теряется. То же самое со звуковыми файлами - достаточно изменить громкость, чтобы сделать уникальный контент для поисковика.

Всё будет хорошо, но мы приложим усилия!
dlyanachalas
На сайте с 15.09.2006
Offline
693
#2
DmitryDV:
Здравствуйте!
шинглы используются для поиска нечетких дубликатов текстовых документов

а кто нибудь пробовал применять их для поиска дубликатов медиа файлов (например картинок)?

Смотря как вы будете расчитывать эти "шинглы". Если, например, некий параметр интенсивности, плюс распределение цветов, ещё какие-то данные проанализировать, то более-менее сносный поиск можно было бы создать.

А у вас праздный интерес?)

т.к. к примеру, копия той же самой картинки в другом разрешении с их помощью не будет найдена, т.е. сама суть поиска теряется.

Размер не будет являться важным критерием. А вот смена цветов - да, будет проблемой. Но тоже, наверное, можно что-то придумать.

DD
На сайте с 27.11.2006
Offline
7
#3
dlyanachalas:


А у вас праздный интерес?

нет эта тема моей диссертации

правда сейчас я нахожусь в самом начале пути

dlyanachalas:

Размер не будет являться важным критерием. А вот смена цветов - да, будет проблемой. Но тоже, наверное, можно что-то придумать

можно ведь преварительно сжать или увеличить изображение (хотя это все равно скажется )

dlyanachalas
На сайте с 15.09.2006
Offline
693
#4
можно ведь преварительно сжать или увеличить изображение (хотя это все равно скажется )

Не мыслите массивами)) После волнового преобразования у вас будет набор гармоник, который вообще никак не привязан к линейным масштабам изображения.

Если у вас диссертация, то прочтите любую книжку по волновому анализу, там это всё подробно должно быть написано. Но к поисковикам это дело имеет не самое прямое отношение)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий