Определение Я оригинальности контента

12 3
[Удален]
2549

Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.

Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?

Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.

У кого какие соображения по этому поводу?

L
На сайте с 12.11.2005
Offline
39
#1

Ищите по слову "шинглы".

reboRn
На сайте с 11.03.2006
Offline
89
#2
Logic:
Ищите по слову "шинглы".

И в чем фикус?

WladimirU:
Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.
Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?
Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.
У кого какие соображения по этому поводу?

По поводу Яндекса не знаю, но знаю о существовании ресурса который проверяет уникальность контента. Ссылку сейчас поискал, но что-то не могу найти, если найду выложу. Но вобщем сервис известный.

Возможно Яндекс юзает что-то похожее..

Большой выбор морд, разная тема. =) Можно оптом. А вообще работать надо господа.
L
На сайте с 12.11.2005
Offline
39
#3
reboRn:
И в чем фикус?

Фикус в том, что принцип распознавания дублей в Яндексе описан самим Сегаловичем.

[Удален]
#4
reboRn:
который проверяет уникальность контента. Ссылку сейчас поискал, но что-то не могу найти, если найду выложу. Но вобщем сервис известный.

antiplagiat.ru

copyspace.com

Alexpr
На сайте с 20.04.2006
Offline
10
#5

http://company.yandex.ru/articles/article10.html (середина статьи, подзаголовок "Качество индекса")

neznaika
На сайте с 28.06.2006
Offline
356
#6
WladimirU:
Интересно, как Яндекс определяет схожесть контента

Почитайте про шинглы, но не факт что это единственный алгоритм...

Дорого покупаю настоящие сайты. Не инвестирую деньги и не беру кредиты.
R
На сайте с 28.01.2006
Offline
95
#7
WladimirU:
Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.
Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?
Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.
У кого какие соображения по этому поводу?

Всё очень просто он считает контрольную сумму, у одно и того же тектса контрольная сумма будет одна и таже.

допустим слово привет п-7 р-8 и-9 э-10 т-11 сумма равна 35 допустим. Если буквы поменять, то контрольная сумма останеться той же.

Каждая буква имеет код ANSI ||.

Можно подсчитывать контрольную сумму абзацами и так далее, но я думаю в яндексе как то подругому. Потому что был опыт эксперимента, когда берёшь текст большими частями и ставишь на страницы яндекс их не клеит и не банит.

А когда делал сайты с полностью похожими страницами через 3 недели пришёл робот зеркальщик и все сайты пропали.

Меняюсь тематическими ссылками с следующими тематиками: Компьютеры, Связь, Hardware, Системы безопасности! Монтаж кондиционеров (http://www.coldfresh.ru)!
[Удален]
#8
radist:
Всё очень просто он считает контрольную сумму, у одно и того же тектса контрольная сумма будет одна и таже.
допустим слово привет п-7 р-8 и-9 э-10 т-11 сумма равна 35 допустим. Если буквы поменять, то контрольная сумма останеться той же.
Каждая буква имеет код ANSI ||.

и он считает контрольную сумму для каждого слова из текста? ИМХО, не в ту степь.

Jack_the_Pirate
На сайте с 10.06.2006
Offline
11
#9

Лично я когда полностью заимствую текст меняю знаки припинания, по логике с контрольной суммой (шинглом) это должно прокатывать.

Dreammaker
На сайте с 20.04.2006
Offline
569
#10

В php и mysql есть функции определения "похожести" английского текста или похожести его звучания, как они работают не знаю (в исходники не заглядывал), но может быть взяты похожие алгоритмы.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий