Яндекс.Картинки. Как определяет одну и ту же в разном разрешении?

310

Dmitry V___v

26 января 2009, 20:23

767

Собственно говоря, сабж. Наткнулся сегодня вот на такой пример

Каким образом подобраны (да еще правильно) картинки в различных разрешениях?

И, если подобраны на основании анализа изображения - нельзя ли таким же образом проанализировать, к примеру, скриншот сайта. И сравнить с эталонным дизайном?...

К вопросу о невосприятии Яндексом дизайнерских излишек, типа слабочитаемого текста на цветном фоне... ;)

Создание и ведение кампаний Google/Bing/Twitter/FB Ads под USA, Canada, United Kingdom and Australia ( https://searchengines.guru/ru/forum/1028286 ) + жирный линкбилдинг под бурж ( https://searchengines.guru/ru/forum/1028282 )

РВ

87

Роман_В

26 января 2009, 21:48

#1

Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.

Взято http://clubs.ya.ru/company/replies.xml?item_no=14086

На вопрос как это сделать, я ответ не знаю :) Не читал

222

Дмитрий

26 января 2009, 22:17

#2

Если взять примитивный алгоритм, то храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Разрабатываю и автоматизирую на php http://jonnyb.ru/

SJ

78

sokol_jack

27 января 2009, 07:09

#3

JonnyB:
Если взять примитивный алгоритм, то храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Да, масштабирование "вниз" к одинаковому размеру и подсчет CRC + погрешность вполне может хватить.

Или например переводим в grayscale и считаем "количество" каждого цвета (можно без кластеризации, упрощенно) ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

182

Ufaweb

27 января 2009, 07:48

#4

JonnyB:
храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Перевести картинку в ч/б 16 бит, 15*15=2250 пикс. Это от 2250 до 2250*15 вариантов картинки в зависимости от того, сколькими точками они отличаются, и хэши всегда будут разными.

OY

31

oneYozh

27 января 2009, 08:25

#5

А ведь анализирует и игнорирует мелкие испаравления:

http://crazy.werd.ru/uploads/posts/thumbs/2008-08-25/1219675185_0.jpg

ИМХО, для сравнения картинок действительно хранит "иконки" небольшого размера...

Для анализа дизайна сайта делать скриншот -- слишком большие затраты.

E

158

Evildeath

27 января 2009, 12:42

#6

Тогда какие изображения яндекс будет считать уникальные. Точнее что нужно сделать с картинку для ее уникализации.

310

Dmitry V___v

27 января 2009, 13:13

#7

oneYozh:
Для анализа дизайна сайта делать скриншот -- слишком большие затраты.

Ну, Гуглбот уже года два умеет выполнять простенькие js и вбивать всякую фигню в формы POST. Yahoo! тоже. У MSN прям анадысь такое же поведение видел :) :)

Хотя у Яндекса, естественно, таких мощностей нет и в свете финансового кризиса не предвидится, но... :)

Курс биткоина превысил $50 тысяч

Что делать, если ваша email-рассылка попала в спам