Синонимайзеры и закон ципфа.

35

webpavilion

6 ноября 2010, 11:43

10061

Провел ряд экспериментов с построением кривых Ципфа для различных текстов после синонимизации. Судя по полученным мной результатам естественность текстов с помощью рангового распределения определить не возможно.

Проводил кто нибудь подобные эксперименты? Буду рад обсудить результаты с кем нибудь кто понимает о чем речь.

webpavilion добавил 06.11.2010 в 15:05

результаты обще доступны, можно ознакомится: часть 1 и часть 2

222

Stripe

6 ноября 2010, 12:24

#1

webpavilion, статьи свои проверьте.

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)

35

webpavilion

6 ноября 2010, 12:31

#2

Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

64

harpeos

6 ноября 2010, 13:43

#3

webpavilion:
Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

Посмотрите, пожалуйста, чем отличаются статьи часть 1 и часть 2?😕

222

Stripe

6 ноября 2010, 14:03

#4

webpavilion:
Stripe, я бы с радостью, не могу в своих статьях опечатки находить. человек который проверяет текст будет только в понедельник. По поводу самого эксперимента комментариев не будет?

Не будет, пока вы первую часть не выложите.

Stripe добавил 06.11.2010 в 17:14

Спасибо, но вторую часть я еще не читал :D

35

webpavilion

6 ноября 2010, 14:21

#5

поправил ссылки в первом посте, на блоге чпу сломалось...

122

G00DMAN

6 ноября 2010, 20:13

#6

webpavilion, такой эксперимент можно было и не проводить, вроде сразу должно быть понятно, что с помощью закона Ципфа естественность определить нельзя. Что не говорит о том, что в Яндексе он не используется. Ципфа можно использовать, как один из факторов естественности. Если у документа много отрицательных факторов, то его считают спамным. Вполне рабочий вариант.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

S

404

Scaryer

6 ноября 2010, 20:33

#7

webpavilion, а почему тексты после синонимизации должны выявляться этим самым законом Ципфа? Я вроде читал, что он палит генерированные тексты.

И синонимизация тоже бывает разная - если на сайте вместо "элитное жильё" написано "элитное логово", а вместо "свадебные платья" - "свадебные плащаницы", то тут никакого Ципфа не надо.

35

webpavilion

7 ноября 2010, 08:25

#8

Scaryer, с генерированными текстами, не все так очевидно.

Scaryer:
И синонимизация тоже бывает разная - если на сайте вместо "элитное жильё" написано "элитное логово", а вместо "свадебные платья" - "свадебные плащаницы", то тут никакого Ципфа не надо.

G00DMAN:
Ципфа можно использовать, как один из факторов естественности. Если у документа много отрицательных факторов, то его считают спамным. Вполне рабочий вариант.

Сложно с вами не согласится, я пытаюсь реализовать все факторы определения неестественных текстов в коде (в корыстных целях конечно же). Сейчас ведется работа с частотностью n-грамм и высоко/низко частотными словами, их долями в документе.

Подскажите еще факторов на которые стоит обратить внимание?

122

G00DMAN

7 ноября 2010, 08:51

#9

webpavilion:
Сложно с вами не согласится, я пытаюсь реализовать все факторы определения неестественных текстов в коде (в корыстных целях конечно же). Сейчас ведется работа с частотностью n-грамм и высоко/низко частотными словами, их долями в документе.

Подскажите еще факторов на которые стоит обратить внимание?

В n-граммы пока не стоит копать, максимум - в биграммы. Нового инсайда от Яндекса на эту тему нет, прошлогодние ссылки я постил недавно:

G00DMAN:
Если пошариться по сайту RCDL, то по контенту можно и более интересные работы найти. Например в работах прошлого года:

"Поиск неестественных текстов"
"Метод обнаружения поискового спама, порожденного с помощью цепей Маркова"

35

webpavilion

7 ноября 2010, 14:32

#10

G00DMAN, спасибо, все вышеприведенное давно зачитано до дыр. Вы случайно не подскажите где коллекции с РОМИПа добыть?

Open AI тестирует память для ChatGPT

Маркетинг для шоколадной фабрики. На 34% выше средний чек