Сниппеты рип ?

1 234 5
JakoKruzo
На сайте с 04.06.2008
Offline
158
#21

Ringozo, Да.

на сайте научных публикаций Яндекса имеется статья с многообещающим названием «Поиск неестественных текстов» [1]. Там сказано примерно следующие “в неестественном тексте должно быть нарушено распределение пар [слов]… количество редких, нехарактерных для языка пар должно быть завышено по сравнению со стандартом, а количество частых пар – занижено”. Перед нами, таким образом, первая группа методов То есть, речь так или иначе идет о сравнении статистических параметров данного текста с параметрами «естественных» текстов. Помимо распределения пар, могут использоваться частоты n-грамм большего размера. В более современных работах [2] применяются также частоты n-грамм не самих слов, а частей речи, когда сначала каждому слову определяется часть речи (СУЩ-ПРИЛ-СУЩ-ГЛАГ), а потом подсчитывают частоты полученных n-грамм, и так далее.

Из статьи - https://habrahabr.ru/company/meanotek/blog/271965/

Mik Foxi
На сайте с 02.03.2011
Offline
1119
#22

JakoKruzo, этот алгоритм в яндексе заметен на синонимайзерах, когда юзаются говносинонимы, которые часто состоят с устаревших слов. А вот как я называю "фейковые синонимы", т.е. замена не на синоним, а на синтаксически похожее слово - это прокатывает норм.

Универсальный антибот, антиспам, веб файрвол, защита от накрутки поведенческих № 1 в рунете: https://antibot.cloud/
Dron1987
На сайте с 24.12.2010
Offline
104
#23
twiprogon:
Единственный источник - был бинг. Он отлично парсил много текста с куками, но теперь и это сломалось. По большей части вообще ничего не отдает, либо слезы текста не релевантного.
Кто юзал бинг сниппеты, как у вас ?

Сниппеты не только у Бинга. Отлично парсятся и из других ПС, я бы даже сказал, что получше

bolyk
На сайте с 16.02.2006
Offline
175
#24
foxi:
JakoKruzo, этот алгоритм в яндексе заметен на синонимайзерах, когда юзаются говносинонимы, которые часто состоят с устаревших слов. А вот как я называю "фейковые синонимы", т.е. замена не на синоним, а на синтаксически похожее слово - это прокатывает норм.

Это работает не только на синонимах)))

Thunder v3. Дорген (http://ifirestarter.ru/product/10) | MassSiteProxy. Скрипт клонирования сайтов (http://ifirestarter.ru/product/12) | CPAgen CPA дорген (http://ifirestarter.ru/product/14) | (http://fast-index.ru/article)
twiprogon
На сайте с 22.07.2013
Offline
189
#25
Dron1987:
Отлично парсятся и из других ПС

в каких например?

гугл, яндекс не напарсишь много

LimonBucks.com (http://limonbucks.com) - Лучшие условия для конверта мобильного трафика
XPraptor
На сайте с 15.10.2004
Offline
333
#26
bolyk:
Это работает не только на синонимах)))

Именно так. Это называется анализ по Зипфу на естественность языка текста.

Его юзают все ПС, но он затратен по ресурсам, поэтому, используется он не сразу при индексе, а через некоторое время (от 2 до 8 месяцев) и вот тогда наступает звизда сайтам, которые его не проходят.

Но, тут тоже есть нюансы, нужно набрать совсем уж кислый порог по Зипфу, чтобы получить санкцию на весь сайт, а при небольшом отклонении, алго ссыкотит банить весь, сайт, потому, как параметр этот не 100% гарантирует лажу в тексте.

Так, что. для доров считай безопасна любая гвоно-генеренка, потому, как, пока дойдет до анализа текста, дор уже отживет и так свое и соберет траф.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#27
Его юзают все ПС, но он затратен по ресурсам,

Думаю, что ПС анализ по Ципфу делают одним из первых. Он очень простой.

R
На сайте с 02.02.2014
Offline
83
#28

Откуда там кто знает, юзают ПС анализ на ципфу или нет. На домыслах теории строить нелепо и глупо.

Взять десяток рандомных статей с топа, там по ципфе будет разбежка + - миллион (образно). ИМХО лажа все это. Можно хоть генеренку цербера загнать в индекс.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#29

Перефразирую: Думаю, что если бы ПС делали анализ по Ципфу, то делали его одним из первых. Практика показывает, что ПС сразу делают комплексный анализ, и распознавание генерёнки не занимает много времени.

А в индекс сейчас всё само прекрасно заходит, только толк выходит разный.

sidorka
На сайте с 17.08.2012
Offline
211
#30

А я отказался от генеренки в пользу сниппетов - трафа больше выходит.

В прошлом году, пока меня фокс не выгнал с вмсна, заморачивался по этой теме.

Но я генерил на основе шаблонов синтаксически разобранных предложений из сборника диктантов. Сами словоформы уже из тематической текстовки. Работало на лету, результат не хранил ввиду совсем уж мизерной нагрузки, выгоднее ядра наращивать оказалось.

Дешевые домены для дорвеев и не только - от 55р (https://goo.gl/Wtnwqp)
1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий