Синонимайзеры и закон ципфа.

webpavilion
На сайте с 10.10.2009
Offline
35
10061

Провел ряд экспериментов с построением кривых Ципфа для различных текстов после синонимизации. Судя по полученным мной результатам естественность текстов с помощью рангового распределения определить не возможно.

Проводил кто нибудь подобные эксперименты? Буду рад обсудить результаты с кем нибудь кто понимает о чем речь.

webpavilion добавил 06.11.2010 в 15:05

результаты обще доступны, можно ознакомится: часть 1 и часть 2

Stripe
На сайте с 05.09.2006
Offline
222
#1

webpavilion, статьи свои проверьте.

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
webpavilion
На сайте с 10.10.2009
Offline
35
#2

Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

harpeos
На сайте с 17.09.2007
Offline
64
#3
webpavilion:
Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

Посмотрите, пожалуйста, чем отличаются статьи часть 1 и часть 2?😕

Stripe
На сайте с 05.09.2006
Offline
222
#4
webpavilion:
Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

Не будет, пока вы первую часть не выложите.

Stripe добавил 06.11.2010 в 17:14

Спасибо, но вторую часть я еще не читал :D

webpavilion
На сайте с 10.10.2009
Offline
35
#5

поправил ссылки в первом посте, на блоге чпу сломалось...

G00DMAN
На сайте с 19.04.2008
Offline
122
#6

webpavilion, такой эксперимент можно было и не проводить, вроде сразу должно быть понятно, что с помощью закона Ципфа естественность определить нельзя. Что не говорит о том, что в Яндексе он не используется. Ципфа можно использовать, как один из факторов естественности. Если у документа много отрицательных факторов, то его считают спамным. Вполне рабочий вариант.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
S
На сайте с 29.01.2006
Offline
404
#7

webpavilion, а почему тексты после синонимизации должны выявляться этим самым законом Ципфа? Я вроде читал, что он палит генерированные тексты.

И синонимизация тоже бывает разная - если на сайте вместо "элитное жильё" написано "элитное логово", а вместо "свадебные платья" - "свадебные плащаницы", то тут никакого Ципфа не надо.

webpavilion
На сайте с 10.10.2009
Offline
35
#8

Scaryer, с генерированными текстами, не все так очевидно.

Scaryer:
И синонимизация тоже бывает разная - если на сайте вместо "элитное жильё" написано "элитное логово", а вместо "свадебные платья" - "свадебные плащаницы", то тут никакого Ципфа не надо.

G00DMAN:
Ципфа можно использовать, как один из факторов естественности. Если у документа много отрицательных факторов, то его считают спамным. Вполне рабочий вариант.

Сложно с вами не согласится, я пытаюсь реализовать все факторы определения неестественных текстов в коде (в корыстных целях конечно же). Сейчас ведется работа с частотностью n-грамм и высоко/низко частотными словами, их долями в документе.

Подскажите еще факторов на которые стоит обратить внимание?

G00DMAN
На сайте с 19.04.2008
Offline
122
#9
webpavilion:
Сложно с вами не согласится, я пытаюсь реализовать все факторы определения неестественных текстов в коде (в корыстных целях конечно же). Сейчас ведется работа с частотностью n-грамм и высоко/низко частотными словами, их долями в документе.

Подскажите еще факторов на которые стоит обратить внимание?

В n-граммы пока не стоит копать, максимум - в биграммы. Нового инсайда от Яндекса на эту тему нет, прошлогодние ссылки я постил недавно:

G00DMAN:
Если пошариться по сайту RCDL, то по контенту можно и более интересные работы найти. Например в работах прошлого года:

"Поиск неестественных текстов"
"Метод обнаружения поискового спама, порожденного с помощью цепей Маркова"
webpavilion
На сайте с 10.10.2009
Offline
35
#10

G00DMAN, спасибо, все вышеприведенное давно зачитано до дыр. Вы случайно не подскажите где коллекции с РОМИПа добыть?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий