Вес уникального контента

12
Коля
На сайте с 04.03.2007
Offline
221
#11
Hallas:
а как Яндекс определит - уникальная картинка или нет? :)

Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

G
На сайте с 05.06.2007
Offline
3
#12

А как вы проверяете уникальность контента?

molodec
На сайте с 06.09.2006
Offline
104
#13
Putin:
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

Любую картинку для веба можно, помимо представления в различных форматах и в различных размерах, еще и сжать с разным уровнем компрессии. Вариантов последовательности битов на одно изобрнажение - миллион.

Erny
На сайте с 26.06.2006
Offline
81
#14
Putin:
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬

Угу, и если стоит цель определить, две картинки, отличаются ли друг от друга или нет (пусть даже с учетом всех возможных форматов, ужиманий, урезаний и т.д.), то задача в принципе решаемая...

Но вот когда дело касается поиска по "215 096 063 картинкам и фотографиям"... ;)

tulp
На сайте с 29.04.2005
Offline
77
#15

По картинкам наверное просто - контрольную сумму посчитали и порядок

а вот по тексту все гораздо сложней

Сам пришел
На сайте с 05.05.2007
Offline
174
#16
DenGrifon:
Все мы в последнее время много говорим о важности уникального контента для того, что бы Яша нас не забанил. Но как именно он оценивает соотношение уникального и не уникального?

У меня есть 2 варианта:
1. по количеству символов
2. по количеству страниц

А вы как думаете?

Вместо того, чтобы заморачиваться подобными вопросами, лучше напрячь моск над тем, как сделать оригинальный проект, интересный пользователю. Воздастся. ;)

SeoTron
На сайте с 19.11.2006
Offline
54
#17
Goer:
(n страниц с ворованным контентом)/(N страниц уникального контента) = K, если К>Kmax, то такой сайт в кидаем топку. Моё ИМХО

Ну вероятно все сложнее. По крайней мере нужно учитывать что контент на странице может быть не совсем ворованный, тоесть нужно вводить коэффициэнт (точнее, наверное, процент ворованности/уникальности страницы). Кроме того сейчас очень много рерайта, а от качества рерайта много зависит. Тоесть необходимо вводить еще коэффициэнт неуникальности статьи (базовый контент схож, но некоторые слова заменены).

Обращаю внимание, что html код тоже анализируется на идентичность, поэтому при прочих равных условиях и малых объемах текста на страницы, две онные так же могут быть склеены на основании идентичности html кода.

А по поводу картинок - самый простой способ - md5 файла (хэш). Например, я сделал у себя заливку пользователям картинок, но перед сохранением проверяю хэш с хэшами уже залитых картинок. если отличается хоть байт - значит нет такой картинки, если хэши одинаковы - заливать не даю (это конечно не спасает если картинку тупо пересохранить). А ведь не будем забывать что давно существуют алгоритмы проверки схожести изображений (ну это я уж так, в общем..). Так что совсем идентичные картинки определить - это скрипт из двух команд, а уж когда Янженеры будут заниматься сравнением страниц - сложно сказать :)

S3
На сайте с 04.10.2007
Offline
45
#18

А вообще интересно на сколько должна отличаться статья от исходника что бы яндекс признал её уникальной?

Кирпичиками статьи являются естественно предложения, интересно хватает ли мощей у Яши проводить сравнение уникальности статей на уровне прдложений или он сравнивает на уровне уникальности абзацев или на уровне уникальности целой статьи?

Возьму на продвижение сайты.
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий