Уникальность контента

123 4
EM
На сайте с 15.06.2006
Offline
2
#11

Ну прально! rewrite просто переделай текст, но с тем же смыслом! вот мы на форуме постоянно так делаем, друг у друга списываем)

no comments
L
На сайте с 03.05.2006
Offline
171
#12

Я не хочу в данном случае переписывать текст. Я хочу куски местами менять. типа было

аааааа бббббб ввввввв гггггггг дддддддд ееееееее жжжжжжжж зззззззз

и стало

аааааа дддддддд бббббб ееееееее ввввввв жжжжжжжж гггггггг зззззззз

От этого контент станет уникальным или нет?

E
На сайте с 27.08.2005
Offline
15
#13

Честно говоря, спор об уникальности контента для поисковика выглядит бессмысленным без знаний об используемом алгоритме и его параметрах, т.к. для каждого подхода - свое четкое определение дублирования. Например, есть алгоритм шинглов, который оперирует с "кусочками" текста по несколько слов. И сколько вы их не мешайте - дубль будет найден. Есть методы основанные на частотном анализе слов в документе с отбрасываем незначащих слов (есть много способов определять незначащие слова), некоторые из методом могут нормализовывать словоформы. Разнообразие огромное. А как это сделано в гугле - ХЗ, никто не расскажет ;)

Anton111
На сайте с 13.08.2005
Offline
138
#14

Eugen, а мне вот до конца не верится, неужели у гугля что-то из этого реализовано? В интернете миллиарды страниц, и все их нужно обработать таким способом - в любом случае используя поиск подстрок - это же неимоверно огромные вычислительные нагрузки!

И еще, как определяет первоисточник?

Актуальный seo'шный old school (http://miralinks.ru/users/registration/from:341)
[Удален]
#15

azazelka, когда у Вас повылетают страницы с неуникальным контентом, Вы перестанете задавать такие вопросы.

[Удален]
#16

Anton111, у Гугля ничего не реализовано, вы что! Он неуникальные страницы определяет методом тыка, выбрасывает наугад.

luxs:
От этого контент станет уникальным или нет?

Как повезет. Вернее, уникальным он не станет, ибо нереально поменять местами до полной неузнаваемости, оставив при этом текст читабельным. Но можете попробовать, авось и не вылетите за дубликат.

L
На сайте с 03.05.2006
Offline
171
#17
kevindark:

Как повезет. Вернее, уникальным он не станет, ибо нереально поменять местами до полной неузнаваемости, оставив при этом текст читабельным. Но можете попробовать, авось и не вылетите за дубликат.

Для человека текс идентичный, а для робота - совершенно другой. Вот я и ищу эти критерии, чтобы не мучаться с уникальностью текста, а автоматом его миксировать, оставляя все как есть для человека но делаю текст уникальным для робота...

L
На сайте с 03.07.2006
Offline
35
#18
Я не хочу в данном случае переписывать текст. Я хочу куски местами менять.

нет, он не будет уникальным, возможно будет в поиске, но в самой Ж

AR
На сайте с 28.05.2006
Offline
86
#19

Вот читал статью как раз на эту тему. Думаю её многие на этом форуме читали.

Во-первых, Дублированный контент - это не процентное соотношение. Процентное соотношение может использоваться в фильтрах. Есть много способов нахождения дублей, например разбивания данного текста на много мелких кусков и ищутся дубли. То есть тут уже процентное соотношение уникального и неуникального не катит.

И ещё мне понравилась одна табличка:

Стпень строгости к дублированному контенту:

Первая степень - идентичность контента и структуры.

Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.

Вторая степень - структурная идентичность, эквивалентный контент.

Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.

Третья ступень - структурная идентичность, похожий контент.

Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.

Четвертая ступень - частичное структурное соответствие, похожий контент.

Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.

Пятая ступень - структурная идентичность, родственный контент.

Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.

Несовпадение - ничего из вышеперечисленного.

Наказание:

1 степень - бан

Пример: dmoz/wiki clones

2 степень - бан

Пример: страница состоит из контента другой страницы (страницы результатов поиска).

3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента

Пример: osCommerce и описания в каталоге производителя

4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.

Пример: тот же что и в случае 3 - похожий контент и использование CMS

Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.

5 степень - не стоит волноваться -

Два форума на vbulletin с одинаковыми категориями.

P.S. А дальше сами делайте выводы.

A
На сайте с 30.11.2005
Offline
193
#20
azazelka, когда у Вас повылетают страницы с неуникальным контентом, Вы перестанете задавать такие вопросы.

я их и задаю потомучто пока ничего не вылетает

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий