уникальность изображений

1 23
M
На сайте с 03.11.2004
Offline
94
#21
response:
эксперимент что-ли провернуть 🙄

да зачем... просто анализируйте

про яндекс ничего не могу сказать — не моё

U
На сайте с 18.12.2007
Offline
18
#22

Честно говоря, слабо в такое верится. Во первых это очень ресурсоёмко, во вторых это объёмно по числу хранимой информации, получается что каждый файлик изображения должен быть в базе поисковика, чтоб было с чем сравнивать. -такого уж точно нет -такие объёмы информации в ближайшем будущем никто хранить не будет. Да и кроме того слабо представляю процесс поиска сходства только что найденной картинки с многомиллионной базой других картинок.(то есть это надо брать и с каждой сверять что ли ? затрачивая на каждую такую проверку определённое процессорное время) Это что касается сходства в процентном выражении..

Что касается 100% сходства изображений: в принципе быть может есть какая-нибудь база хэшей, с элементами которой и сравниваются хэши свежеНайденных файликов изображений.

Но это тоже расчёт хэша, хранение всех хэшей, сравнение хэша свеженайденного файла с элементами всей базы -тоже наверное немало ресурсов.

Да и более того выгода с этого, прям скажем немалозатратного предприятия, Сомнительна. То есть, конечно, я представляю себе ситуации при которых такая проверка могла бы понадобиться, но число этих ситуаций мало.

response
На сайте с 01.12.2004
Offline
324
#23
motorhead:
да зачем... просто анализируйте

по-моему примеры некорректны.. мы не говорим об уникальности изображения в рамках бд пс, мы говорим о дополнительном пути фильтрации дупов сплогов/блогов/дорвеев, в дополнение к полумифическим "по ип", "по хуизу" и любимому "по шаблону".

кстати, выборка не ахти (не то, что ваша), но все же: katie fey в картинках яндекса. Пролистал первые несколько страниц - дупов крайне мало. Есть из одной галеры рядомстоящие фотки (с одной страницы, видимо), но не дупы.

ДОПИСЫВАЮ: там на сайтах, которые в топе, очень много дупов, именно на самих сайтах. Но в топах их нет.

undercover:
Честно говоря, слабо в такое верится. Во первых это очень ресурсоёмко, во вторых это объёмно, получается что каждый файлик изображения должен быть в базе поисковика, чтоб было с чем сравнивать.

нет, не получается.

undercover:
чтоб получить хэш, файл для это надо обработать(хотя может и ошибаюсь...) -это опять же ресурсы.

подсчет простейшего хэша - ничто по сравнению со временем записи файла на диск, в бд, ресайза и т.д.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
U
На сайте с 18.12.2007
Offline
18
#24

почему

response:
нет, не получается.

а каким образом ещё можно проверить то насколько уникальна свеженайденная картинка. ведь для такого заключения её нужно с чем то сравнивать ..

это в контексте НЕ сравнения на абсолютную идентичность, при которой можно полагаться только на хэши, а в контексте сходства впроцентном выражении (вроде они одинковы на 99% или на 99,9%)

response:
подсчет простейшего хэша - ничто по сравнению со временем записи файла на диск, в бд, ресайза и т.д.

спасибо за информацию -хоть буду знать.. Ну в таком случае в возможность наличия подобных проверок верится больше.

Но я действительно слабо представляю практическое примение таких проверок в плане банов и прочего -понятное дело, что есть шаблонны сайтов -и что с того, что какой то шаблон очень популярен? У меня есть несколько тысяч картинок, которые я постоянно использую на своих дорах - но не очень хорошо представляю, как это можно подвести к признаку сходства. Могут быть отдельные случаи, когда на нескольких сотнях дорах ты используешь одни и теже картинки(причём не в кол-ве 10к, а в количестве пары десятков) -за такое в теории можно было бы получить бан -но не думаю что вобще кто то так делает (всмысле для сотни ёмких доров готовит всего десяток картинок). То есть делать из этого признак для бана не считаю правильным.

Может я просто не понимаю о чём вы ? Не могли бы объяснить, мне просто тоже интересна эта тема, так как шаблоны то новые используются регулярно, а вот картинки(не части шаблона, а просто изображения) никогда не менялись(то есть, к примеру, из 5к рандомно выбираются и вставляются в страницы)

response
На сайте с 01.12.2004
Offline
324
#25
undercover:
почему

а каким образом ещё можно проверить то насколько уникальна свеженайденная картинка. ведь для такого заключения её нужно с чем то сравнивать ..
это в контексте НЕ сравнения на абсолютную идентичность, при которой можно полагаться только на хэши, а в контексте сходства впроцентном выражении (вроде они одинковы на 99% или на 99,9%)

для контекста сходства в процентном выражении достаточно сделать хэш от нескольких хешей :) ну, так сказать записать несколько хешей - хешей тех самых блоков, о которых мы весь тред трындим.

undercover:

Но я действительно слабо представляю практическое примение таких проверок в плане банов и прочего -понятное дело, что есть шаблонны сайтов -и что с того, что какой то шаблон очень популярен? У меня есть несколько тысяч картинок, которые я постоянно использую на своих дорах - но не очень хорошо представляю, как это можно подвести к признаку сходства. Могут быть отдельные случаи, когда на нескольких сотнях дорах ты используешь одни и теже картинки(причём не в кол-ве 10к, а в количестве пары десятков) -за такое в теории можно было бы получить бан -но не думаю что вобще кто то так делает (всмысле для сотни ёмких доров готовит всего десяток картинок). То есть делать из этого признак для бана не считаю правильным.

Может я просто не понимаю о чём вы ? Не могли бы объяснить, мне просто тоже интересна эта тема, так как шаблоны то новые используются регулярно, а вот картинки(не части шаблона, а просто изображения) никогда не менялись(то есть, к примеру, из 5к рандомно выбираются и вставляются в страницы)

да пример простой. вы палитесь об уникальности текстового контента? наверняка. почему не палиться об уникальности графического? у вас на сайте текст уникален, но его мало. помимо текста есть 100 фоток, из которых яндекс признал уже многократно растиражированными в сети 90 штук - выш сайт получает фильтр "сто лаптей до топа". А будь фотки уникальны, получил бы "писят лаптей" 😂

Т.е. сферу применения надо рассматривать не как какие-то отдельные случаи, а как общую практику, при которой фильтрация дубликатов изображений (и ранжирование на основании данных об уникальности используемых графических материалов) стоит практически в одном ряду с фильтрацией текстовых дублей. Для ведущих новостных сайтов хорошо - их может и рерайтят, но фотки все равно копипастят как есть, со всеми вотермарками. А так они всегда будут в топе выше (по крайней мере в теории).

U
На сайте с 18.12.2007
Offline
18
#26
для контекста сходства в процентном выражении достаточно сделать хэш от нескольких хешей

честно говоря не очень понял, может потому что не в теме темы хэшей :) ну да ладно..

В-общем начал писать ответ, потом начал немного править, потом понял, что неохота об этом рассуждать(Всмысле о релевантности, первоисточнике текста = первоисточнике изображений). Всмысле толк то есть, но я представил, что рассуждая об абстрактном можно наговорить на листов 20++ )). Могу сказать с большой уверенностью, что такое будет, и возможно что всё дойдёт до такой же жёсткости, как это щас происходит с текстовым контентом, но это будет тогда, когда реально это будет актуально или когда разберутся с текстовым контентом ))

А пока если и есть что-либо подобное, то работает оно в пределах Картинки.<наименование поисковика>

Newo
На сайте с 13.08.2006
Offline
41
#27
response:
как думаете, яша и ко уже палят уникальность изображений? у яши есть статьи на подобные темы в списке грантов, так может час х уже пришел?
я просто тут смотрю на свои сайтики, и думаю, что кроме фоток, хуиза и ип их ничего не объединяет. При этом одна выстреливает, две лежат мертвым грузом.

Лично мне кажется, ниче не палится. Могут канешн палиться полные копии картинок, но в этом случае достаточно изменить чуть-чуть изображение и все ок)

Вообще, насколько я знаю, поисковики еще даже не обучились нормально флеш обрабатывать (а это куда легче чем картинки))))

Ярик
На сайте с 26.10.2003
Offline
121
#28
Newo:
Вообще, насколько я знаю, поисковики еще даже не обучились нормально флеш обрабатывать (а это куда легче чем картинки))))

Про проще flash, чем картинки можно поподробнее?

не посылай, да и не послан будешь...
response
На сайте с 01.12.2004
Offline
324
#29
Newo:
Могут канешн палиться полные копии картинок, но в этом случае достаточно изменить чуть-чуть изображение и все ок)

вы вообще топик целиком читаете, или только первый пост по диагонали?

по-моему было наглядно доказано, что чуть-чуть изменить изображние недостаточно (хоть и на примере стороннего продукта). для кого блин стока букф набил..

Newo:
еще даже не обучились нормально флеш обрабатывать (а это куда легче чем картинки))))

гг :)

Ярик
На сайте с 26.10.2003
Offline
121
#30
response:
для кого блин стока букф набил..

:) Для меня, я оценил - хотя многие видимо читают первый и последний пост... Может быть много букфф не осиливают. 😂

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий