- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
а как Яндекс определит - уникальная картинка или нет? :)
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬
А как вы проверяете уникальность контента?
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬
Любую картинку для веба можно, помимо представления в различных форматах и в различных размерах, еще и сжать с разным уровнем компрессии. Вариантов последовательности битов на одно изобрнажение - миллион.
Любая картинка-это последовательность битов. А значит к ней применимы различные логические функции 🚬
Угу, и если стоит цель определить, две картинки, отличаются ли друг от друга или нет (пусть даже с учетом всех возможных форматов, ужиманий, урезаний и т.д.), то задача в принципе решаемая...
Но вот когда дело касается поиска по "215 096 063 картинкам и фотографиям"... ;)
По картинкам наверное просто - контрольную сумму посчитали и порядок
а вот по тексту все гораздо сложней
Все мы в последнее время много говорим о важности уникального контента для того, что бы Яша нас не забанил. Но как именно он оценивает соотношение уникального и не уникального?
У меня есть 2 варианта:
1. по количеству символов
2. по количеству страниц
А вы как думаете?
Вместо того, чтобы заморачиваться подобными вопросами, лучше напрячь моск над тем, как сделать оригинальный проект, интересный пользователю. Воздастся. ;)
(n страниц с ворованным контентом)/(N страниц уникального контента) = K, если К>Kmax, то такой сайт в кидаем топку. Моё ИМХО
Ну вероятно все сложнее. По крайней мере нужно учитывать что контент на странице может быть не совсем ворованный, тоесть нужно вводить коэффициэнт (точнее, наверное, процент ворованности/уникальности страницы). Кроме того сейчас очень много рерайта, а от качества рерайта много зависит. Тоесть необходимо вводить еще коэффициэнт неуникальности статьи (базовый контент схож, но некоторые слова заменены).
Обращаю внимание, что html код тоже анализируется на идентичность, поэтому при прочих равных условиях и малых объемах текста на страницы, две онные так же могут быть склеены на основании идентичности html кода.
А по поводу картинок - самый простой способ - md5 файла (хэш). Например, я сделал у себя заливку пользователям картинок, но перед сохранением проверяю хэш с хэшами уже залитых картинок. если отличается хоть байт - значит нет такой картинки, если хэши одинаковы - заливать не даю (это конечно не спасает если картинку тупо пересохранить). А ведь не будем забывать что давно существуют алгоритмы проверки схожести изображений (ну это я уж так, в общем..). Так что совсем идентичные картинки определить - это скрипт из двух команд, а уж когда Янженеры будут заниматься сравнением страниц - сложно сказать :)
А вообще интересно на сколько должна отличаться статья от исходника что бы яндекс признал её уникальной?
Кирпичиками статьи являются естественно предложения, интересно хватает ли мощей у Яши проводить сравнение уникальности статей на уровне прдложений или он сравнивает на уровне уникальности абзацев или на уровне уникальности целой статьи?