Вес уникального контента

225

Коля

2 октября 2007, 07:27

#11

Hallas:
а как Яндекс определит - уникальная картинка или нет? :)

Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

G

3

Genek

2 октября 2007, 09:30

#12

А как вы проверяете уникальность контента?

104

molodec

2 октября 2007, 09:59

#13

Putin:
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

Любую картинку для веба можно, помимо представления в различных форматах и в различных размерах, еще и сжать с разным уровнем компрессии. Вариантов последовательности битов на одно изобрнажение - миллион.

81

Erny

2 октября 2007, 13:22

#14

Putin:
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

Угу, и если стоит цель определить, две картинки, отличаются ли друг от друга или нет (пусть даже с учетом всех возможных форматов, ужиманий, урезаний и т.д.), то задача в принципе решаемая...

Но вот когда дело касается поиска по "215 096 063 картинкам и фотографиям"... ;)

77

tulp

2 октября 2007, 20:02

#15

По картинкам наверное просто - контрольную сумму посчитали и порядок

а вот по тексту все гораздо сложней

175

Сам пришел

2 октября 2007, 20:18

#16

DenGrifon:
Все мы в последнее время много говорим о важности уникального контента для того, что бы Яша нас не забанил. Но как именно он оценивает соотношение уникального и не уникального?

У меня есть 2 варианта:
1. по количеству символов
2. по количеству страниц

А вы как думаете?

Вместо того, чтобы заморачиваться подобными вопросами, лучше напрячь моск над тем, как сделать оригинальный проект, интересный пользователю. Воздастся. ;)

https://t.me/twenty_years_online

54

SeoTron

2 октября 2007, 22:40

#17

Goer:
(n страниц с ворованным контентом)/(N страниц уникального контента) = K, если К>Kmax, то такой сайт в кидаем топку. Моё ИМХО

Ну вероятно все сложнее. По крайней мере нужно учитывать что контент на странице может быть не совсем ворованный, тоесть нужно вводить коэффициэнт (точнее, наверное, процент ворованности/уникальности страницы). Кроме того сейчас очень много рерайта, а от качества рерайта много зависит. Тоесть необходимо вводить еще коэффициэнт неуникальности статьи (базовый контент схож, но некоторые слова заменены).

Обращаю внимание, что html код тоже анализируется на идентичность, поэтому при прочих равных условиях и малых объемах текста на страницы, две онные так же могут быть склеены на основании идентичности html кода.

А по поводу картинок - самый простой способ - md5 файла (хэш). Например, я сделал у себя заливку пользователям картинок, но перед сохранением проверяю хэш с хэшами уже залитых картинок. если отличается хоть байт - значит нет такой картинки, если хэши одинаковы - заливать не даю (это конечно не спасает если картинку тупо пересохранить). А ведь не будем забывать что давно существуют алгоритмы проверки схожести изображений (ну это я уж так, в общем..). Так что совсем идентичные картинки определить - это скрипт из двух команд, а уж когда Янженеры будут заниматься сравнением страниц - сложно сказать :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S3

45

Serg_33

11 октября 2007, 16:06

#18

А вообще интересно на сколько должна отличаться статья от исходника что бы яндекс признал её уникальной?

Кирпичиками статьи являются естественно предложения, интересно хватает ли мощей у Яши проводить сравнение уникальности статей на уровне прдложений или он сравнивает на уровне уникальности абзацев или на уровне уникальности целой статьи?

Возьму на продвижение сайты.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, если ваша email-рассылка попала в спам