Если бы ПС делали анализ по Ципфу на естественность языка текста, то сделали его одним из первых - Doorways & Cloaking

158

JakoKruzo

14 января 2018, 19:34

#21

Ringozo, Да.

на сайте научных публикаций Яндекса имеется статья с многообещающим названием «Поиск неестественных текстов» [1]. Там сказано примерно следующие “в неестественном тексте должно быть нарушено распределение пар [слов]… количество редких, нехарактерных для языка пар должно быть завышено по сравнению со стандартом, а количество частых пар – занижено”. Перед нами, таким образом, первая группа методов То есть, речь так или иначе идет о сравнении статистических параметров данного текста с параметрами «естественных» текстов. Помимо распределения пар, могут использоваться частоты n-грамм большего размера. В более современных работах [2] применяются также частоты n-грамм не самих слов, а частей речи, когда сначала каждому слову определяется часть речи (СУЩ-ПРИЛ-СУЩ-ГЛАГ), а потом подсчитывают частоты полученных n-грамм, и так далее.

Из статьи - https://habrahabr.ru/company/meanotek/blog/271965/

1

jakodorgen.ru (http://www.jakodorgen.ru/)

Небольшой опрос. Идеальный дорген/генератор смысл анкора - объясните? Апдейт поисковой базы 05.12.2014

1265

Mik Foxi

14 января 2018, 19:54

#22

JakoKruzo, этот алгоритм в яндексе заметен на синонимайзерах, когда юзаются говносинонимы, которые часто состоят с устаревших слов. А вот как я называю "фейковые синонимы", т.е. замена не на синоним, а на синтаксически похожее слово - это прокатывает норм.

Антибот, антиспам, веб фаервол, защита от накрутки поведенческих: https://antibot.cloud/ (8 лет на защите сайтов).

Яндекс внедряет алгоритм показов Джон Мюллер рассказал о Яндекс.Поиск по картинкам научился

104

Dron1987

6 февраля 2018, 01:31

#23

twiprogon:
Единственный источник - был бинг. Он отлично парсил много текста с куками, но теперь и это сломалось. По большей части вообще ничего не отдает, либо слезы текста не релевантного.
Кто юзал бинг сниппеты, как у вас ?

Сниппеты не только у Бинга. Отлично парсятся и из других ПС, я бы даже сказал, что получше

175

bolyk

6 февраля 2018, 07:07

#24

foxi:
JakoKruzo, этот алгоритм в яндексе заметен на синонимайзерах, когда юзаются говносинонимы, которые часто состоят с устаревших слов. А вот как я называю "фейковые синонимы", т.е. замена не на синоним, а на синтаксически похожее слово - это прокатывает норм.

Это работает не только на синонимах)))

Thunder v3. Дорген (http://ifirestarter.ru/product/10) | MassSiteProxy. Скрипт клонирования сайтов (http://ifirestarter.ru/product/12) | CPAgen CPA дорген (http://ifirestarter.ru/product/14) | (http://fast-index.ru/article)

189

twiprogon

6 февраля 2018, 07:23

#25

Dron1987:
Отлично парсятся и из других ПС

в каких например?

гугл, яндекс не напарсишь много

LimonBucks.com (http://limonbucks.com) - Лучшие условия для конверта мобильного трафика

333

XPraptor

6 февраля 2018, 13:36

#26

bolyk:
Это работает не только на синонимах)))

Именно так. Это называется анализ по Зипфу на естественность языка текста.

Его юзают все ПС, но он затратен по ресурсам, поэтому, используется он не сразу при индексе, а через некоторое время (от 2 до 8 месяцев) и вот тогда наступает звизда сайтам, которые его не проходят.

Но, тут тоже есть нюансы, нужно набрать совсем уж кислый порог по Зипфу, чтобы получить санкцию на весь сайт, а при небольшом отклонении, алго ссыкотит банить весь, сайт, потому, как параметр этот не 100% гарантирует лажу в тексте.

Так, что. для доров считай безопасна любая гвоно-генеренка, потому, как, пока дойдет до анализа текста, дор уже отживет и так свое и соберет траф.

1

Яндекс: из-под Минусинска можно Google: если сайт ранжируется Крауд-ссылки: что это такое

158

JakoKruzo

6 февраля 2018, 13:54

#27

Его юзают все ПС, но он затратен по ресурсам,

Думаю, что ПС анализ по Ципфу делают одним из первых. Он очень простой.

R

83

Ringozo

6 февраля 2018, 15:09

#28

Откуда там кто знает, юзают ПС анализ на ципфу или нет. На домыслах теории строить нелепо и глупо.

Взять десяток рандомных статей с топа, там по ципфе будет разбежка + - миллион (образно). ИМХО лажа все это. Можно хоть генеренку цербера загнать в индекс.

Большая конференция amoCRM: все, 50 оттенков текстовых Как спамить Рамблер. Любителям

158

JakoKruzo

6 февраля 2018, 15:57

#29

Перефразирую: Думаю, что если бы ПС делали анализ по Ципфу, то делали его одним из первых. Практика показывает, что ПС сразу делают комплексный анализ, и распознавание генерёнки не занимает много времени.

А в индекс сейчас всё само прекрасно заходит, только толк выходит разный.

Система продажи ссылок Ingots Большой сайт не индексируется... Как сделать https?

211

sidorka

6 февраля 2018, 16:09

#30

А я отказался от генеренки в пользу сниппетов - трафа больше выходит.

В прошлом году, пока меня фокс не выгнал с вмсна, заморачивался по этой теме.

Но я генерил на основе шаблонов синтаксически разобранных предложений из сборника диктантов. Сами словоформы уже из тематической текстовки. Работало на лету, результат не хранил ввиду совсем уж мизерной нагрузки, выгоднее ядра наращивать оказалось.

Дешевые домены для дорвеев и не только - от 55р (https://goo.gl/Wtnwqp)

PandoraBox - вопросы и Белые Дорвеи или Дорвееподобные Грузящий серверы сайт на

Что делать, если ваша email-рассылка попала в спам

Дзен реализовал для авторов возможность вывода денег через СПБ

Сниппеты рип ?