- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Уважаемый All,
У кого есть опыт успешного регулярного наполнения сайтов размноженными на основе шаблонов {||||} текстами, подскажите:
- какова должна быть длина шингла при отфильтровывании слишком похожих текстов,
- каков при этом должен быть максимальный процент схожести
с тем, чтобы избежать попадания текстов под фильтр.
Проще говоря, использование какой длины шингла и какого максимального процента схожести дадут из одного шаблона набор текстов, гарантированно не вызывающих санкций со стороны Гугла как к неуникальному контенту?
Заранее благодарю за обоснованные мнения.
На основе шаблоно {||||} - прямая дорога в бан
Используйте сложные вложенные конструкции, изменяйте структуру предложений, абзацев и всего текста в целом, и тогда, при высокой уникальности по шинглам и небольшом числе копий будет держаться в индексе.
На основе шаблоно {||||} - прямая дорога в бан
Используйте сложные вложенные конструкции, изменяйте структуру предложений, абзацев и всего текста в целом, и тогда, при высокой уникальности по шинглам и небольшом числе копий будет держаться в индексе.
Благодарю за ответ.
К сожалению, вынужден не согласиться.
Пишем шаблон:
{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.
Получаем два крайних варианта предложений:
"Мне очень жаль, я вынужден не согласиться".
и
"К сожалению, не могу согласиться".
Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.
В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.
Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.
Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.
Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.
Благодарю за ответ.
К сожалению, вынужден не согласиться.
Пишем шаблон:
{Мне очень жаль,|К сожалению,} {я|} {вынужден не|не могу} согласиться.
Получаем два крайних варианта предложений:
"Мне очень жаль, я вынужден не согласиться".
и
"К сожалению, не могу согласиться".
Для человека эти варианты очень похожи по смыслу, а для машины - только потому, что в конце каждого предложения стоит одинаковое слово - "согласиться". Дело в том, что человек по ходу чтения текста погружается в контекст, человек понимает. Машина же, насколько я знаю, ещё не работает с контекстом, машина не понимает, она работает с формальными признаками текста.
В данном случае я привёл только по одному варианту замены для каждого слова. Если привести по 5 вариантов, то мы получим как минимум 5 абсолютно разных вариантов, забанить которые не за что. При этом, чем больше вариантов замены мы создаём, тем больше промежуточных вариантов с разными степенями схожести мы получим.
Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов. Что это для нас значит? Это значит, что у Гугла есть один или несколько шаблонов (или аналитических алгоритмов), по отношению к которым текст как-то классифицируется - т.е. предписывается к какой-то группе, а уже после этого текст может сравниваться с потенциально похожими из этой группы. И вот тут-то, насколько я понимаю, используется метод шинглов. Но это только моя гипотеза.
Моё мнение - в подобной ситуации должна быть допустимая степень схожести текстов, которую Гугл воспринимает как приемлемую. Если используется метод шинглов, то есть и длина шингла, меньше которой Гугл не станет использовать в простых целях экономии машинного ресурса. Опять же, схожесть не содержательная, не по сути, а по лексическому составу и по структуре текста.
Это теория. Если кто-то обладает экспериментально проверенной информацией о том, какие именно признаки текста ещё использует Гугл при отфильтровывании неуникального контента, поделитесь. Хотя бы в личку. Но прежде всего интересуют длина шингла и процент схожести.
Ты алгоритмы писал?
URL: Продвижение сайтов, построение сайтов, сопровождение сайтов
Простите, не удержался.
А цифры падающие, некак в матрице, это у вас фирменное?
Гугл не способен провести сравнение каждого текста в интернете с каждым другим текстом - на это не хватит никаких вычислительных ресурсов.
Hint: во время поиска Гугл не производит сравнение поискового запроса с каждым текстом в Инете. Поисковая база хранится в удобной для выборки форме, которая осуществляется не перебором всех вариантов. Так и проверку документа при индексации не нужно проводить сравнением со всеми ранее проиндексированными текстами - достаточно делать запросы к поисковой базе.
Простите, не удержался.
А цифры падающие, некак в матрице, это у вас фирменное?
Ага, я только так и пишу 🚬
А есть ли информация, позволяющая судить что Гугл/иной поисковик/ использует только алгоритм шинглов?
Ведь алгоритмов для классификации образов достаточно много. Те же нейронные сети, например.
TC
Имхо, очень интересный вопрос. Тоже много раз задавался.
Ты алгоритмы писал?
Ценю чувство юмора :)
К сожалению, нет, я - обычный ленивый филолог, куда уж мне алгоритмы писать. Пока что, вот, пытаюсь решить довольно прозаичную задачу. Нужно придумать план максимально эффективного использования аккуратно (без грубых ошибок вроде несогласованности падежей) уникализированного контента. По причине лени не хочу даже один лишний текст писать :) Лучше ведь всё-таки выяснить, сколько размноженных копий можно использовать без вреда для сайтов. Теоретически, всё можно выяснить экспериментальным путём, но для получения нужного результата нужно правильно организовать условия для эксперимента. Вот и собираю информацию, какая уже есть у людей.
DerSoldat добавил 30.01.2010 в 18:23
А есть ли информация, позволяющая судить что Гугл/иной поисковик/ использует только алгоритм шинглов?
Ведь алгоритмов для классификации образов достаточно много. Те же нейронные сети, например.
TC
Имхо, очень интересный вопрос. Тоже много раз задавался.
Нейронные сети это плохо для нас :) Это ж прямая дорога к пониманию текстов или к имитации понимания. Но есть один козырь - Гугл должен использовать для каждого текста минимальный набор действий (кратчайший путь). А нейронная сеть, насколько мне когда-то рассказывали, развивается за счёт своевременной коррекции, потому что сама она не знает, когда приняла неверное решение. Т.е. должно быть нечто (человек, например), что "воспитывает" нейронную сеть и корректирует её развитие. Т.е. нейронная сеть не должна быть более коротким путём, чем метод шинглов, вроде как. Разве что, можно создать некий самокорректирующий алгоритм. Кто его знает, до чего они дошли...
В любом случае, в сердце настоящего человека должна оставаться надежда на возможность малыми ресурсами безнаказанно поиметь комплексную систему :)
DerSoldat добавил 30.01.2010 в 18:30
Hint: во время поиска Гугл не производит сравнение поискового запроса с каждым текстом в Инете. Поисковая база хранится в удобной для выборки форме, которая осуществляется не перебором всех вариантов. Так и проверку документа при индексации не нужно проводить сравнением со всеми ранее проиндексированными текстами - достаточно делать запросы к поисковой базе.
Всё правильно. Но обращение к уже существующей базе с запросом "выдай-ка мне все 100%-ные совпадения" не решает гугловской задачи борьбы с уникализированным текстом. Если для текста не найдены совпадения, то машина ещё и выберет из базы и информацию о похожих текстах. Правильно? А потом сравнит их с потенциально уникализированным текстом тем же методом шинглов... Ошибаюсь?