Чем удобней проверять сжимаемость текста?

166

Pavel Medvedev

18 мая 2012, 07:18

2269

Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.

Есть какие-нить удобные бары, плагины, чтобы можно было налету оценивать сжимаемость текстов на страницах?

Кто-нить использует этот метод, вообще, и чем пользуется?

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.

192

sabotage

18 мая 2012, 07:34

#1

sni:
Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.

Этопять! 10

166

Pavel Medvedev

18 мая 2012, 08:01

#2

sabotage:
Этопять! 10

Что не так?

http://jmlr.csail.mit.edu/papers/volume7/bratko06a/bratko06a.pdf

http://bazzinga.org/upload-files/poisk_neestestvennih_textov_statia.pdf

http://rcdl.ru/doc/2011/27_pavlov.ppt

901

юни

18 мая 2012, 08:09

#3

sni, дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит

192

sabotage

18 мая 2012, 08:10

#4

sni, доки разбирать лень, но неужели там сказано, что воду можно определить архиватором? Бред еще тот.

---------- Добавлено 18.05.2012 в 10:16 ----------

юни, есть такие варианты, спамность определять можно попробовать, а воду как?

Давайте всерьёз поговорим о Борьба с ботами Размер шрифта на сайте

166

Pavel Medvedev

18 мая 2012, 08:29

#5

юни:
дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.

Да не. Алгоритмы архивации сейчас крутые. Все, наверное, замечали что тексты очень хорошо сжимаются архиваторами.

Там довольно продвинутые аглоритмы. Они не только словари текста создают, но и учитывают часто встречаемые биграммы триграммы слов.

Эта часть алго архиваторов напоминает алго поиска избыточных, неестественных, повторений фраз.

Доказательство: взять блокнот, написать там

Привет медвед Привет медвед Привет медвед Привет медвед Привет....

повторить 100500 раз, на 1 МБ текста.

Запаковываем RAR'ом, получается файл размером 800 байт (из которых, наверное большая часть это служебная инфа и заголовки).

Явно сжатие не посимвольное? :)

sabotage, там результаты исследований, где видно что спамность хорошо кореллирует со сжимаемостью текста. Инфа столетней давности, просто никто вроде удобных утилит так и не придумал. Думаю может я один такой отсталый, с winRAR'ом)

Яндекс, Лаборатория комбинаторных и вероятностных методов:
В работе [5] был построен
классификатор спама, использовавший несколько таких признаков, как сжимаемость документа,
средняя вероятность триграмм, доля частых слов в документе и другие – которые затем были собраны в дерево решений при помощи алгоритма машинного обучения

- Все перечисленное используется уже 10 лет winrar для сжатия текста.

В викимарте, если верить их отделу лингвистов, оценивают текст так - но они не делятся утилитами)

sabotage:
а воду как

Вода - это часто большое количество всяких служебных слов, повторяющихся длинных текстовых конструкций. Замечал, что в текстах "ни о чем", меньшее количество лемм, занимают большее количество текста.

Ну, например (цифры условные):

Нормальный текст: 25 самых частотных слов занимают 35% объема всего текста

Текст с водой: 25 самых частотных занимают 55% объема текста

В общем, объясняя на пальцах, разнообразный корпус слов и фраз сжать сложнее, чем однообразный)

1

192

sabotage

18 мая 2012, 08:39

#6

sni, зачем винрар? Получить леммы и их процент совсем не сложно.

Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента.

Нормальный текст: 25 самых частотных слов занимают 35% объема всего текста
Текст с водой: 25 самых частотных занимают 55% объема текста

Спасибо, это, в принципе, интересно.

Можно попробовать

1. Получить стату по кеям newsru, ленты, etc

2. Пройтись по продажным разделам сайтов миралинкса, пересчитать их.

Но по словам вполне облом может случится, шинглы сравнивать надо (а это уже гемморой)

166

Pavel Medvedev

18 мая 2012, 08:53

#7

sabotage, винрар(или zip) - потому что там очень крутой алго поиска похожих частей текстов, которые можно ужать, отточенный годами. Соответственно, если:

-большая плотность ключевиков

-много повторяющихся двух/трех-словников

-"Текст с водой: 25 самых частотных занимают 55% объема текста"

то коэффициент сжатия такого текста будет больше чем нормального текста. Это подтверждают эксперименты в докладах. Спам сжимается больше, чем нормальный текст.

Чем плох способ? Он сразу выдает цифры, которые коррелируют со спамностью.

Например

6,7

5,6

5,2

12,2

8,2

4,4

(большое число - похоже на спам. Обычное - не похоже на спам)

sabotage:
Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента

Я юзал Яндексовский Mystem. Но у поисковиков покруче всеравно алгоритм - они используют гигантские словари лемм, синонимов, переформулировки. Не понял, правда, как это к теме относится :)

192

sabotage

18 мая 2012, 09:47

#8

sni:
Не понял, правда, как это к теме относится

То есть? Получаешь леммы, смотришь кол-во вхождений, процент. По-моему, в разы веселее и нагляднее, чем архивировать.

166

Pavel Medvedev

18 мая 2012, 11:27

#9

sabotage:
Получаешь леммы, смотришь кол-во вхождений, процент

Ну это все могут.

Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?

166

Fruit

18 мая 2012, 11:43

#10

sni:
Ну это все могут.
Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?

Постранично получать леммы, смотреть кол-во вхождений, процент.

Использовать сжание - не вариант: текст, состоящий из двух одинаковых абзацев, сжат архиватором будет минимум в два раза, т.е. получится очень спамным, что не соотвествует действительности.

Надо считать TF-IDF для слов (словосочетаний) и проверять на превышение разумных пределов.

Но вообще, это всё очень приблизительный метод, т.к. Яндекс различает структуру документа и отличает тексты от меню, перечислений и т.д. Возможно, помните тему, когда сайт с зашкаливающим кол-вом вхождений "корм для собак" был в топе.

1

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел