Яндекс.Картинки. Как определяет одну и ту же в разном разрешении?

Dmitry V___v
На сайте с 07.12.2006
Offline
310
761

Собственно говоря, сабж. Наткнулся сегодня вот на такой пример

Каким образом подобраны (да еще правильно) картинки в различных разрешениях?

И, если подобраны на основании анализа изображения - нельзя ли таким же образом проанализировать, к примеру, скриншот сайта. И сравнить с эталонным дизайном?...

К вопросу о невосприятии Яндексом дизайнерских излишек, типа слабочитаемого текста на цветном фоне... ;)

Создание и ведение кампаний Google/Bing/Twitter/FB Ads под USA, Canada, United Kingdom and Australia ( https://searchengines.guru/ru/forum/1028286 ) + жирный линкбилдинг под бурж ( https://searchengines.guru/ru/forum/1028282 )
РВ
На сайте с 30.05.2006
Offline
87
#1
Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.

Взято http://clubs.ya.ru/company/replies.xml?item_no=14086

На вопрос как это сделать, я ответ не знаю :) Не читал

Дмитрий
На сайте с 23.08.2006
Offline
222
#2

Если взять примитивный алгоритм, то храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Разрабатываю и автоматизирую на php http://jonnyb.ru/
SJ
На сайте с 16.03.2008
Offline
78
#3
JonnyB:
Если взять примитивный алгоритм, то храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Да, масштабирование "вниз" к одинаковому размеру и подсчет CRC + погрешность вполне может хватить.

Или например переводим в grayscale и считаем "количество" каждого цвета (можно без кластеризации, упрощенно) ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Ufaweb
На сайте с 03.03.2008
Offline
182
#4
JonnyB:
храним мд5 хеши уменьшенных картинок, скажем 15х15, этого вполне достаточно для идентификации

Перевести картинку в ч/б 16 бит, 15*15=2250 пикс. Это от 2250 до 2250*15 вариантов картинки в зависимости от того, сколькими точками они отличаются, и хэши всегда будут разными.

OY
На сайте с 26.02.2008
Offline
31
#5

А ведь анализирует и игнорирует мелкие испаравления:

http://crazy.werd.ru/uploads/posts/thumbs/2008-08-25/1219675185_0.jpg

ИМХО, для сравнения картинок действительно хранит "иконки" небольшого размера...

Для анализа дизайна сайта делать скриншот -- слишком большие затраты.

E
На сайте с 27.02.2008
Offline
151
#6

Тогда какие изображения яндекс будет считать уникальные. Точнее что нужно сделать с картинку для ее уникализации.

Dmitry V___v
На сайте с 07.12.2006
Offline
310
#7
oneYozh:
Для анализа дизайна сайта делать скриншот -- слишком большие затраты.

Ну, Гуглбот уже года два умеет выполнять простенькие js и вбивать всякую фигню в формы POST. Yahoo! тоже. У MSN прям анадысь такое же поведение видел :) :)

Хотя у Яндекса, естественно, таких мощностей нет и в свете финансового кризиса не предвидится, но... :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий