Определение Я оригинальности контента

[Удален]

7 августа 2006, 07:39

2584

Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.

Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?

Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.

У кого какие соображения по этому поводу?

L

39

Logic

7 августа 2006, 07:41

#1

Ищите по слову "шинглы".

89

reboRn

7 августа 2006, 07:54

#2

Logic:
Ищите по слову "шинглы".

И в чем фикус?

WladimirU:
Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.
Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?
Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.
У кого какие соображения по этому поводу?

По поводу Яндекса не знаю, но знаю о существовании ресурса который проверяет уникальность контента. Ссылку сейчас поискал, но что-то не могу найти, если найду выложу. Но вобщем сервис известный.

Возможно Яндекс юзает что-то похожее..

Большой выбор морд, разная тема. =) Можно оптом. А вообще работать надо господа.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

39

Logic

7 августа 2006, 07:58

#3

reboRn:
И в чем фикус?

Фикус в том, что принцип распознавания дублей в Яндексе описан самим Сегаловичем.

[Удален]

7 августа 2006, 08:18

#4

reboRn:
который проверяет уникальность контента. Ссылку сейчас поискал, но что-то не могу найти, если найду выложу. Но вобщем сервис известный.

antiplagiat.ru

copyspace.com

10

Alexpr

7 августа 2006, 09:01

#5

http://company.yandex.ru/articles/article10.html (середина статьи, подзаголовок "Качество индекса")

356

neznaika

7 августа 2006, 09:04

#6

WladimirU:
Интересно, как Яндекс определяет схожесть контента

Почитайте про шинглы, но не факт что это единственный алгоритм...

Дорого покупаю настоящие сайты. Не инвестирую деньги и не беру кредиты.

R

95

radist

7 августа 2006, 09:19

#7

WladimirU:
Интересно, как Яндекс определяет схожесть контента? Если текст содран один в один, то тут все ясно. А вот например если переставить абзацы местами? По доходчивость текста для пользователя пока молчим, интересут только определение Яндексом.
Или например есть срезанная с другого сайта страница-каталог с 5 товарами, у каждого товара несколько характеристик. Будет ли для Я страницы являться оригинальной если переставить местами товары, да еще в каждом товаре поменять местами характеристики?
Или же вообще идет сравнение по словам, но тогда возникает вопрос о процентном соотношении оригинального контента к неоригинальному.
У кого какие соображения по этому поводу?

Всё очень просто он считает контрольную сумму, у одно и того же тектса контрольная сумма будет одна и таже.

допустим слово привет п-7 р-8 и-9 э-10 т-11 сумма равна 35 допустим. Если буквы поменять, то контрольная сумма останеться той же.

Каждая буква имеет код ANSI ||.

Можно подсчитывать контрольную сумму абзацами и так далее, но я думаю в яндексе как то подругому. Потому что был опыт эксперимента, когда берёшь текст большими частями и ставишь на страницы яндекс их не клеит и не банит.

А когда делал сайты с полностью похожими страницами через 3 недели пришёл робот зеркальщик и все сайты пропали.

Меняюсь тематическими ссылками с следующими тематиками: Компьютеры, Связь, Hardware, Системы безопасности! Монтаж кондиционеров (http://www.coldfresh.ru)!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

7 августа 2006, 10:04

#8

radist:
Всё очень просто он считает контрольную сумму, у одно и того же тектса контрольная сумма будет одна и таже.
допустим слово привет п-7 р-8 и-9 э-10 т-11 сумма равна 35 допустим. Если буквы поменять, то контрольная сумма останеться той же.
Каждая буква имеет код ANSI ||.

и он считает контрольную сумму для каждого слова из текста? ИМХО, не в ту степь.

11

Jack_the_Pirate

7 августа 2006, 10:28

#9

Лично я когда полностью заимствую текст меняю знаки припинания, по логике с контрольной суммой (шинглом) это должно прокатывать.

569

Dreammaker

7 августа 2006, 10:39

#10

В php и mysql есть функции определения "похожести" английского текста или похожести его звучания, как они работают не знаю (в исходники не заглядывал), но может быть взяты похожие алгоритмы.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Все что нужно знать о DDоS-атаках грамотному менеджеру