Вопрос по длине шингла и % схожести текстов

DS
На сайте с 10.03.2009
Offline
31
1973

Уважаемый All,

У кого есть опыт успешного регулярного наполнения сайтов размноженными на основе шаблонов {||||} текстами, подскажите:

- какова должна быть длина шингла при отфильтровывании слишком похожих текстов,

- каков при этом должен быть максимальный процент схожести

с тем, чтобы избежать попадания текстов под фильтр.

Проще говоря, использование какой длины шингла и какого максимального процента схожести дадут из одного шаблона набор текстов, гарантированно не вызывающих санкций со стороны Гугла как к неуникальному контенту?

Заранее благодарю за обоснованные мнения.

Tyomos
На сайте с 13.05.2008
Offline
80
#1

На основе шаблоно {||||} - прямая дорога в бан

Используйте сложные вложенные конструкции, изменяйте структуру предложений, абзацев и всего текста в целом, и тогда, при высокой уникальности по шинглам и небольшом числе копий будет держаться в индексе.

DS
На сайте с 10.03.2009
Offline
31
#2
Tyomos:
На основе шаблоно {||||} - прямая дорога в бан
Используйте сложные вложенные конструкции, изменяйте структуру предложений, абзацев и всего текста в целом, и тогда, при высокой уникальности по шинглам и небольшом числе копий будет держаться в индексе.

Благодарю за ответ.

К сожалению, вынужден не согласиться.

Пишем шаблон:

{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.

Получаем два крайних варианта предложений:

"Мне очень жаль, я вынужден не согласиться".

и

"К сожалению, не могу согласиться".

Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.

В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.

Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.

Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.

Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.

alexburzak
На сайте с 28.11.2006
Offline
61
#3
DerSoldat:
Благодарю за ответ.

К сожалению, вынужден не согласиться.

Пишем шаблон:

{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.

Получаем два крайних варианта предложений:
"Мне очень жаль, я вынужден не согласиться".
и
"К сожалению, не могу согласиться".

Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.

В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.

Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.

Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.

Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.

Ты алгоритмы писал?

URL: Продвижение сайтов, построение сайтов, сопровождение сайтов (http://www.upmaster.co.il/default.aspx?lan=ru) Прежде, чем задать вопрос я всегда пользуюсь поиском и MSDN!
BT
На сайте с 05.03.2009
Offline
10
#4
alexburzak:
URL: Продвижение сайтов, построение сайтов, сопровождение сайтов

Простите, не удержался.

А цифры падающие, некак в матрице, это у вас фирменное?

VF
На сайте с 26.01.2002
Offline
113
VF
#5
DerSoldat:
Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов.

Hint: во время поиска Гугл не производит сравнение поискового запроса с каждым текстом в Инете. Поисковая база хранится в удобной для выборки форме, которая осуществляется не перебором всех вариантов. Так и проверку документа при индексации не нужно проводить сравнением со всеми ранее проиндексированными текстами - достаточно делать запросы к поисковой базе.

alexburzak
На сайте с 28.11.2006
Offline
61
#6
BasTaller:
Простите, не удержался.
А цифры падающие, некак в матрице, это у вас фирменное?

Ага, я только так и пишу 🚬

BT
На сайте с 05.03.2009
Offline
10
#7

А есть ли информация, позволяющая судить что Гугл/иной поисковик/ использует только алгоритм шинглов?

Ведь алгоритмов для классификации образов достаточно много. Те же нейронные сети, например.

TC

Имхо, очень интересный вопрос. Тоже много раз задавался.

DS
На сайте с 10.03.2009
Offline
31
#8
alexburzak:
Ты алгоритмы писал?

Ценю чувство юмора :)

К сожалению, нет, я - обычный ленивый филолог, куда уж мне алгоритмы писать. Пока что, вот, пытаюсь решить довольно прозаичную задачу. Нужно придумать план максимально эффективного использования аккуратно (без грубых ошибок вроде несогласованности падежей) уникализированного контента. По причине лени не хочу даже один лишний текст писать :) Лучше ведь всё-таки выяснить, сколько размноженных копий можно использовать без вреда для сайтов. Теоретически, всё можно выяснить экспериментальным путём, но для получения нужного результата нужно правильно организовать условия для эксперимента. Вот и собираю информацию, какая уже есть у людей.

DerSoldat добавил 30.01.2010 в 18:23

BasTaller:
А есть ли информация, позволяющая судить что Гугл/иной поисковик/ использует только алгоритм шинглов?
Ведь алгоритмов для классификации образов достаточно много. Те же нейронные сети, например.

TC
Имхо, очень интересный вопрос. Тоже много раз задавался.

Нейронные сети это плохо для нас :) Это ж прямая дорога к пониманию текстов или к имитации понимания. Но есть один козырь - Гугл должен использовать для каждого текста минимальный набор действий (кратчайший путь). А нейронная сеть, насколько мне когда-то рассказывали, развивается за счёт своевременной коррекции, потому что сама она не знает, когда приняла неверное решение. Т.е. должно быть нечто (человек, например), что "воспитывает" нейронную сеть и корректирует её развитие. Т.е. нейронная сеть не должна быть более коротким путём, чем метод шинглов, вроде как. Разве что, можно создать некий самокорректирующий алгоритм. Кто его знает, до чего они дошли...

В любом случае, в сердце настоящего человека должна оставаться надежда на возможность малыми ресурсами безнаказанно поиметь комплексную систему :)

DerSoldat добавил 30.01.2010 в 18:30

VF:
Hint: во время поиска Гугл не производит сравнение поискового запроса с каждым текстом в Инете. Поисковая база хранится в удобной для выборки форме, которая осуществляется не перебором всех вариантов. Так и проверку документа при индексации не нужно проводить сравнением со всеми ранее проиндексированными текстами - достаточно делать запросы к поисковой базе.

Всё правильно. Но обращение к уже существующей базе с запросом "выдай-ка мне все 100%-ные совпадения" не решает гугловской задачи борьбы с уникализированным текстом. Если для текста не найдены совпадения, то машина ещё и выберет из базы и информацию о похожих текстах. Правильно? А потом сравнит их с потенциально уникализированным текстом тем же методом шинглов... Ошибаюсь?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий