Как определяется ПС естественность текста?

esidrex
На сайте с 21.06.2009
Offline
67
1127

На форуме искал, путевого чего-то не нашел ничего. Может плохо искал конечно же. В интернетах тоже одна теории, понятно, что на 100% никто не знает. Но на родном серче все равно почитать приятнее, чем на непонятных блогах.

Короче, заканчиваю прелюдию, ближе к делу.

1. Синонимайз умер. Все признали. Но как яндекс определяет синонимайз? Шингл?

Это получается есть предложение в оригинале "В этот летний вечер погода была необыкновенная", после синомайзера допустим "В данный летний поздний вечер погода была чудесная". Яндекс увидит главные слова летний вечер погода и на основании этого сделает вывод о синонимайзе? Я вот не совсем понимаю механику этого процесса. =\ Как он палит?)) Ну если еще добавить слов, вроде прилагательных, и совсем раздуть предложение до больших масштабов, как он обнаружит связь или ее отсутствие?

2. Тут вытекает следующий вопрос. Естественность текстов.

Почему одни тексты для робота естественные, другие нет? Те же цепи Маркова дают уникальный, пускай почти нечитаемый контент. Согалсен, Яндекс может палить словосочетания, но ведь после цепей Маркова можно использовать тот же синонимайзер или переводчик. И вот тут уж точно 100% уникальность и по шинглам. Как здесь себя бот ведет? Почему он определит, что данный текст бред?

Извиняюсь, если подобные вопросы уже разжевывались. Я тут уже дня два спокойно спать не могу. :D:

Harius
На сайте с 24.08.2008
Offline
251
#1
esidrex:
... и совсем раздуть предложение до больших масштабов, как он обнаружит связь или ее отсутствие?

А может расмматривается то не 1 предложение а например несколько предложений, думаю не так уж сложно вычислить что одна статья сделана из другой. Например если 4 слова в 1 предложении одни и те же - это ни о чём не говорит, но если в пяти подряд предложениях те же слова в том же порядке, то это уже..

➨ Проверка качества ссылок в Яндексе https://xtool.ru - проверка PR,Траст, спам,TF,CF,LVL,ВС,POS,TrF,inY.. + экспорт в xls ➨7 нейросетей онлайн бесплатно без регистрации https://ntema.ru
Amigo_9876
На сайте с 01.04.2009
Offline
322
#2

Я думаю, что внесены в блек-лист какие то стоп слова, и если они очень часто используются в одном тексте, то ПС понимает что это - синомайз. Такие слова, которые уже устарели, и современными людьми не используются, может так...

The WishMaster
На сайте с 29.09.2005
Offline
2542
#3
esidrex:
1. Синонимайз умер. Все признали.

Ну прям таки умер... пока что еще жив :)

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
esidrex
На сайте с 21.06.2009
Offline
67
#4
А может расмматривается то не 1 предложение а например несколько предложений, думаю не так уж сложно вычислить что одна статья сделана из другой. Например если 4 слова в 1 предложении одни и те же - это ни о чём не говорит, но если в пяти подряд предложениях те же слова в том же порядке, то это уже..

Хм, ну тогда я могу из источника в 10.000 символов выбрать 2-3 абзаца на 1.000 символов. Тут уже по идеи ПС будет сложнее определить тот ли это источник или нет?

Ну прям таки умер... пока что еще жив

Ну, такой вывод можно сделать прочитав темки в разделе о купле/продаже сайтов, где сайты с оным крайне негативно оцениваются. :)

The WishMaster
На сайте с 29.09.2005
Offline
2542
#5
esidrex:
Ну, такой можно сделать прочитав темки в разделе о купле/продаже сайтов, где сайты с оным крайне негативно оцениваются.

Цену сбивают.

Harius
На сайте с 24.08.2008
Offline
251
#6
esidrex:
Хм, ну тогда я могу из источника в 10.000 символов выбрать 2-3 абзаца на 1.000 символов. Тут уже по идеи ПС будет сложнее определить тот ли это источник или нет?

Ну думаю 1000 символов хватит для палева.

Вот попробуйте просто перемешать местами предложения и синонимизировать, думаю шансов намного больше будет

Константинович
На сайте с 13.09.2008
Offline
319
#7
Amigo_9876:
Такие слова, которые уже устарели, и современными людьми не используются, может так...

Всё верно. Типо того

По шинглам определяется уникальность текста, а не его естественность.

esidrex:
пускай почти нечитаемый контент

вот это и главное. или почти главное. как определяется читаемость? А ХЗ, у Word надо спросить.

The WishMaster:
Цену сбивают.

Ещё смотря какой синонимайз...

ТС, посмотри на пример. Живёт в Яндексе ХЗ сколько времени. Около полугода где-то или меньше, точно не помню. И если не стучать на данный сайт в яндекс - он ещё будет жить год или больше, несмотря на то, что контент для человека там нечитабельный. Считай, что спалил тему :)

Нужны финансы? Быстрая скупка (http://dragmettorg.com/skupka_zolota/). Цены на сайте. А потом отыграй из на казино онлайн правила (http://premium-games.ru/)
esidrex
На сайте с 21.06.2009
Offline
67
#8

Спасибо за ценные советы. :) Про Зипфа немного читал. Сейчас просто мысли есть о написании софтины, вот и исчу в каком направлении двигаться. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий