Что можно придумать с дублями title?

Станислав
На сайте с 27.12.2009
Offline
237
1046

На сайте фото контент генерируется самими пользователями, и само собой их мало интересует уникальность описания (тегов) проставляемых к фотографиям.

Title состоит исключительно из тегов прописанных к фото + пара СЧ запросов, дублей в итоге просто колоссальное множество и каждый день растет как на дрожжах.

Месяца два назад написал небольшой скрипт для отлова дублирующих заголовков, в результате из 300к страниц дубликатов почти 60к :gm:

Для устранения проблемы решил написать отдельную форму для проставления уникальных заголовков для страниц с дубликатами, это помогает, но не могу переварить объемы и банально не успеваю за появлением нового дублирующего контента, пока изменяю 10 записей, ни их смену появляется 20 новых. Прописываю и уникальные заголовки, где то банально разбавляю/добавляю теги к фото. Попытка подсунуть форму пользователям не увенчалась успехом (и не удивительно), всякие рекомендации по тегам тоже всячески игнорируются. За одни день бывает по +1к дублей вылетает.

Как быть? Что делать?

На ум приходит только:

1. Добавление разрешения в title, или идентификатор, или вес картинки, но это никакой смысловой нагрузки не носит и выглядит полным шлаком.

2. Выявлять родителя дублей, а остальным дублям прописывать cannonical на родителя (Если ли плюсы для ПС?)

3. Может есть какие другие варианты?

Страницы по свой сути одинаковые, разница лишь в тегах прописанных к фотографии и самой фотографии

Мы там, где рады нас видеть.
Lazy Badger
На сайте с 14.06.2017
Offline
231
#1

За каноникалы авторы разных картинок будут вас бить, возможно - ногами

Нужен

* Алгоритм

* Генерации

* Уникальных текстовых идентификаторов

я бы стал всячески крутить EXIF (точнее - нашел бы исполнителя с руками из нужного места и со знаниями используемой CMSб потому что явно что-то дописывать придется в коде), и только если их нет - "пожалуйста опишите материал, фотографии без описания и названия не показываются на сайте"

Производство жести методом непрерывного отжига
S1
На сайте с 02.10.2016
Offline
138
#2
Ms-Dred:
На ум приходит только:
1. Добавление разрешения в title, или идентификатор, или вес картинки, но это никакой смысловой нагрузки не носит и выглядит полным шлаком.

Нужно более детальное описание что у вас.

А пока, могу только добавить - автор, регион, дата:время ...

В комплексе, это должно создать некую уникальность.

Постоянно обмениваюсь ссылками с качественными сайтами по теме электроника, электронные компоненты, и тд.
ВC
На сайте с 02.02.2006
Offline
459
#3

Я дописывал город (брал из регистрации) и ник автора.

Sezhers
На сайте с 30.11.2015
Offline
36
#4

либо уникальный идентификационный номер добавлять для каждой фотографии, либо автора, и не давать одному и тому же автору одинаково называть разные файлы

donc
На сайте с 16.01.2007
Offline
664
#5
Sezhers:
и не давать одному и тому же автору одинаково называть разные файлы

Это жесть, не стоит

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )
Станислав
На сайте с 27.12.2009
Offline
237
#6
LazyBadger:
я бы стал всячески крутить EXIF

Чет подергал Exif из фоток, не прокатит, будет все тоже самое только + ненужный шлак в title. Дело в том что один автор пишет к примеру 5-6 однотипных тегов, и как правило если фото его, то и сделано оно с однотипным exif :)

Печаль беда, Если бы сам не запустил все да такого состояния было бы попроще, но что имею то имею и хочется поправить.

Вчера + 70 фото и 48% дублей, че делать даже не знаю 😒

Lazy Badger
На сайте с 14.06.2017
Offline
231
#7
Ms-Dred:
Чет подергал Exif из фоток, не прокатит, будет все тоже самое только + ненужный шлак в title.

RLLY?! Вот взял самое первое под рукой


ImageDescription :
Make : BQru
Model : BQru-5202
Orientation : 1
XResolution : 72
YResolution : 72
ResolutionUnit : 2
Software : MediaTek Camera Application
DateTime : 2018:03:02 21:25:54
YCbCrPositioning : 2
undefined :
ExifIFDPointer : 414
IFD1Offset : 800
ExposureTime : 0.004173
FNumber : 2.4
ExposureProgram : Not defined
ISOSpeedRatings : 93
ExifVersion : 0220
DateTimeOriginal : 2018:03:02 21:25:54
DateTimeDigitized : 2018:03:02 21:25:54
ComponentsConfiguration : YCbCr
ExposureBias : 0
MeteringMode : CenterWeightedAverage
LightSource : Other
Flash : Flash fired
FocalLength : 3.5
SubsecTime : 5
SubsecTimeOriginal : 5
SubsecTimeDigitized : 5
FlashpixVersion : 0100
ColorSpace : 1
PixelXDimension : 4096
PixelYDimension : 2304
InteroperabilityIFDPointer : 918
ExposureMode : 0
WhiteBalance : Auto white balance
DigitalZoomRation : 1
SceneCaptureType : Standard

из этого уникальный ID делается как два байта переслать (и нужна только меньшая часть). А еще можно MD5|CRC32 файла с фотографией делать... уникальность - выше крыши

donc
На сайте с 16.01.2007
Offline
664
#8

Технологию распознавания прикрутить. И все что она определит - писать в теги и в титл :)

Станислав
На сайте с 27.12.2009
Offline
237
#9
LazyBadger:
из этого уникальный ID делается как два байта переслать (и нужна только меньшая часть). А еще можно MD5|CRC32 файла с фотографией делать... уникальность - выше крыши

Это то понятно, у меня mongodb стоит, там ID более чем вменяемый =) я просто думал брать название фотоаппарата или название софтины с которой была нарисована картинка. А если id в title прописывать, не сочтется ли это за некий спам?

Технологию распознавания прикрутить. И все что она определит - писать в теги и в титл :)

Lazy Badger
На сайте с 14.06.2017
Offline
231
#10
Ms-Dred:
я просто думал брать название фотоаппарата или название софтины с которой была нарисована картинка.

Ну и в чем проблема? Глядя на свой же EXIF, я легко и непринужденно из него делаю что-то типа

LazyBadger-BQru-5202-4096x2304-1520025954

и это совершенно уникальный ID, да еще и информативный (возможно даже избыточно в третьем поле)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий