Вот читал статью как раз на эту тему. Думаю её многие на этом форуме читали.
Во-первых, Дублированный контент - это не процентное соотношение. Процентное соотношение может использоваться в фильтрах. Есть много способов нахождения дублей, например разбивания данного текста на много мелких кусков и ищутся дубли. То есть тут уже процентное соотношение уникального и неуникального не катит.
И ещё мне понравилась одна табличка:
Стпень строгости к дублированному контенту:
Первая степень - идентичность контента и структуры.
Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.
Вторая степень - структурная идентичность, эквивалентный контент.
Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.
Третья ступень - структурная идентичность, похожий контент.
Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.
Четвертая ступень - частичное структурное соответствие, похожий контент.
Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.
Пятая ступень - структурная идентичность, родственный контент.
Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.
Несовпадение - ничего из вышеперечисленного.
Наказание:
1 степень - бан
Пример: dmoz/wiki clones
2 степень - бан
Пример: страница состоит из контента другой страницы (страницы результатов поиска).
3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента
Пример: osCommerce и описания в каталоге производителя
4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.
Пример: тот же что и в случае 3 - похожий контент и использование CMS
Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.
5 степень - не стоит волноваться -
Два форума на vbulletin с одинаковыми категориями.
P.S. А дальше сами делайте выводы.
Это штука для англоязычных запросов,и тут запросы все в единственном числе. Стата в основном на основе трафа с яху.
http://inventory.overture.com/d/searchinventory/suggestion/
https://adwords.google.com/select/KeywordToolExternal
http://www.google.com/webhp?complete=1&hl=en
http://gofman.name/pr/code.php
Юзай поиск. Тем в разделе google было море,каждую неделю поднимают её.
/ru/forum/45559
Вот тема.
Даже нашёл-не поленился.
ПР получаю,не то что индексируют.Avatar, а у тебя просто лазеют,Я замечал так же,что и яху лазеет.
Avatar, Уже не новость. Баян. Была месага уже про это. И самое интересно, что не только сидит, но и индекс заносит. Причём у меня случай не единичный аж 3 сайта, если не ошибаюсь началось это в февраля(обдейт ПР когда был)
И ещё извеняюсь, что сразу не написал,но кажеться песочница длится для сайтов с тематикой гемблинг гоораздо дольше. Даже,если аккуратно наращивать ссылки.
P.S. Вспомнил один пример интересный: магазин ссылок. И приписка маленькими буквами:не принимаются ссылки:adult,gambling,porn.
P.P.S. Это не гугля, это овертюра
Если не ощибаюсь,статистика с яху,мсн(кажется,но не уверен)+ ещё что-то.
Просто логический подумайте. Сколько он затратил времени, чтобы сделать всё это?Если брать, что на генерацию одной странички у него уходило 30 секунд, то
5.000.000.000/2=2.5*10^9(минут)
2.5*10^9/60=41.6*10^6(Часов!)-приблизительно.
Дальше я считать не буду.
Тематика очень серьёзная. Самая серьёзная и конкурентная в англоязычном инетернете. Тут затронуты интересы очень серьёзных проектов. Врятли будет измеряться десятками. Если считая, что с одного человека можно получить по аффилейтной программе всреднем $200, то смотрим овертюру
online casino 1074281
internet casino 65919
Берём что хотябы 10000 сделают дипозит
=$200000
И это только за месяц и то в овертюре.
Хм...Яндекс вроде как не считает для англоязычных ресурсов ТИЦ. Примером кажется у них был
yahoo.com