Используйте критерии строгости к дублированному контенту, чтобы не мучаться с уникальностью текста - Google

Уникальность контента

luxs · 2006-07-08T10:20:58.0000000Z

от мучает меня вопрос, что такое уникальный контент для гугли? По какой длинне словосочетаний он ищет совпадения и как много совпадений ддолжно быть чтобы страницы посчитались обинаковыми? Как нужно переделать статью, чтобы она стала уникальной? Если я проведу всевозможные перестановки по 3-4 слова в статье - она останестся уникальной или нет? http://www.copyscape.com/ говорит что неуникально и собирает из 3-4 словных раскиданых фрагментов полную статью...

EM

2

EvMu

8 июля 2006, 17:31

#11

Ну прально! rewrite просто переделай текст, но с тем же смыслом! вот мы на форуме постоянно так делаем, друг у друга списываем)

no comments

L

171

luxs

8 июля 2006, 19:58

#12

Я не хочу в данном случае переписывать текст. Я хочу куски местами менять. типа было

аааааа бббббб ввввввв гггггггг дддддддд ееееееее жжжжжжжж зззззззз

и стало

аааааа дддддддд бббббб ееееееее ввввввв жжжжжжжж гггггггг зззззззз

От этого контент станет уникальным или нет?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

15

Eugen

8 июля 2006, 23:28

#13

Честно говоря, спор об уникальности контента для поисковика выглядит бессмысленным без знаний об используемом алгоритме и его параметрах, т.к. для каждого подхода - свое четкое определение дублирования. Например, есть алгоритм шинглов, который оперирует с "кусочками" текста по несколько слов. И сколько вы их не мешайте - дубль будет найден. Есть методы основанные на частотном анализе слов в документе с отбрасываем незначащих слов (есть много способов определять незначащие слова), некоторые из методом могут нормализовывать словоформы. Разнообразие огромное. А как это сделано в гугле - ХЗ, никто не расскажет ;)

Eugen's blog (http://www.kochuev.com/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

138

Anton111

9 июля 2006, 04:52

#14

Eugen, а мне вот до конца не верится, неужели у гугля что-то из этого реализовано? В интернете миллиарды страниц, и все их нужно обработать таким способом - в любом случае используя поиск подстрок - это же неимоверно огромные вычислительные нагрузки!

И еще, как определяет первоисточник?

Актуальный seo'шный old school (http://miralinks.ru/users/registration/from:341)

[Удален]

9 июля 2006, 10:26

#15

azazelka, когда у Вас повылетают страницы с неуникальным контентом, Вы перестанете задавать такие вопросы.

[Удален]

9 июля 2006, 10:27

#16

Anton111, у Гугля ничего не реализовано, вы что! Он неуникальные страницы определяет методом тыка, выбрасывает наугад.

luxs:
От этого контент станет уникальным или нет?

Как повезет. Вернее, уникальным он не станет, ибо нереально поменять местами до полной неузнаваемости, оставив при этом текст читабельным. Но можете попробовать, авось и не вылетите за дубликат.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

171

luxs

9 июля 2006, 11:29

#17

kevindark:

Как повезет. Вернее, уникальным он не станет, ибо нереально поменять местами до полной неузнаваемости, оставив при этом текст читабельным. Но можете попробовать, авось и не вылетите за дубликат.

Для человека текс идентичный, а для робота - совершенно другой. Вот я и ищу эти критерии, чтобы не мучаться с уникальностью текста, а автоматом его миксировать, оставляя все как есть для человека но делаю текст уникальным для робота...

L

35

leshii

10 июля 2006, 07:00

#18

Я не хочу в данном случае переписывать текст. Я хочу куски местами менять.

нет, он не будет уникальным, возможно будет в поиске, но в самой Ж

AR

86

andrew-rostov

10 июля 2006, 07:16

#19

Вот читал статью как раз на эту тему. Думаю её многие на этом форуме читали.

Во-первых, Дублированный контент - это не процентное соотношение. Процентное соотношение может использоваться в фильтрах. Есть много способов нахождения дублей, например разбивания данного текста на много мелких кусков и ищутся дубли. То есть тут уже процентное соотношение уникального и неуникального не катит.

И ещё мне понравилась одна табличка:

Стпень строгости к дублированному контенту:

Первая степень - идентичность контента и структуры.

Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.

Вторая степень - структурная идентичность, эквивалентный контент.

Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.

Третья ступень - структурная идентичность, похожий контент.

Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.

Четвертая ступень - частичное структурное соответствие, похожий контент.

Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.

Пятая ступень - структурная идентичность, родственный контент.

Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.

Несовпадение - ничего из вышеперечисленного.

Наказание:

1 степень - бан

Пример: dmoz/wiki clones

2 степень - бан

Пример: страница состоит из контента другой страницы (страницы результатов поиска).

3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента

Пример: osCommerce и описания в каталоге производителя

4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.

Пример: тот же что и в случае 3 - похожий контент и использование CMS

Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.

5 степень - не стоит волноваться -

Два форума на vbulletin с одинаковыми категориями.

P.S. А дальше сами делайте выводы.

MoneyBookers (https://www.moneybookers.com/app/?rid=4517140)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

193

azazelka

10 июля 2006, 07:50

#20

azazelka, когда у Вас повылетают страницы с неуникальным контентом, Вы перестанете задавать такие вопросы.

я их и задаю потомучто пока ничего не вылетает

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Уникальность контента