Чем удобней проверять сжимаемость текста?

12
Pavel Medvedev
На сайте с 27.01.2006
Offline
166
2269

Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.

Есть какие-нить удобные бары, плагины, чтобы можно было налету оценивать сжимаемость текстов на страницах?

Кто-нить использует этот метод, вообще, и чем пользуется?

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
sabotage
На сайте с 14.02.2007
Offline
192
#1
sni:
Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.

Этопять! 10

юни
На сайте с 01.11.2005
Offline
901
#3

sni, дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
sabotage
На сайте с 14.02.2007
Offline
192
#4

sni, доки разбирать лень, но неужели там сказано, что воду можно определить архиватором? Бред еще тот.

---------- Добавлено 18.05.2012 в 10:16 ----------

юни, есть такие варианты, спамность определять можно попробовать, а воду как?

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#5
юни:
дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.

Да не. Алгоритмы архивации сейчас крутые. Все, наверное, замечали что тексты очень хорошо сжимаются архиваторами.

Там довольно продвинутые аглоритмы. Они не только словари текста создают, но и учитывают часто встречаемые биграммы триграммы слов.

Эта часть алго архиваторов напоминает алго поиска избыточных, неестественных, повторений фраз.

Доказательство: взять блокнот, написать там

Привет медвед Привет медвед Привет медвед Привет медвед Привет....
повторить 100500 раз, на 1 МБ текста.

Запаковываем RAR'ом, получается файл размером 800 байт (из которых, наверное большая часть это служебная инфа и заголовки).

Явно сжатие не посимвольное? :)

sabotage, там результаты исследований, где видно что спамность хорошо кореллирует со сжимаемостью текста. Инфа столетней давности, просто никто вроде удобных утилит так и не придумал. Думаю может я один такой отсталый, с winRAR'ом)

Яндекс, Лаборатория комбинаторных и вероятностных методов:
В работе [5] был построен
классификатор спама, использовавший несколько таких признаков, как сжимаемость документа,
средняя вероятность триграмм, доля частых слов в документе и другие – которые затем были собраны в дерево решений при помощи алгоритма машинного обучения

- Все перечисленное используется уже 10 лет winrar для сжатия текста.

В викимарте, если верить их отделу лингвистов, оценивают текст так - но они не делятся утилитами)

sabotage:
а воду как

Вода - это часто большое количество всяких служебных слов, повторяющихся длинных текстовых конструкций. Замечал, что в текстах "ни о чем", меньшее количество лемм, занимают большее количество текста.

Ну, например (цифры условные):

Нормальный текст: 25 самых частотных слов занимают 35% объема всего текста

Текст с водой: 25 самых частотных занимают 55% объема текста

В общем, объясняя на пальцах, разнообразный корпус слов и фраз сжать сложнее, чем однообразный)

sabotage
На сайте с 14.02.2007
Offline
192
#6

sni, зачем винрар? Получить леммы и их процент совсем не сложно.

Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента.

Нормальный текст: 25 самых частотных слов занимают 35% объема всего текста
Текст с водой: 25 самых частотных занимают 55% объема текста

Спасибо, это, в принципе, интересно.

Можно попробовать

1. Получить стату по кеям newsru, ленты, etc

2. Пройтись по продажным разделам сайтов миралинкса, пересчитать их.

Но по словам вполне облом может случится, шинглы сравнивать надо (а это уже гемморой)

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#7

sabotage, винрар(или zip) - потому что там очень крутой алго поиска похожих частей текстов, которые можно ужать, отточенный годами. Соответственно, если:

-большая плотность ключевиков

-много повторяющихся двух/трех-словников

-"Текст с водой: 25 самых частотных занимают 55% объема текста"

то коэффициент сжатия такого текста будет больше чем нормального текста. Это подтверждают эксперименты в докладах. Спам сжимается больше, чем нормальный текст.

Чем плох способ? Он сразу выдает цифры, которые коррелируют со спамностью.

Например

6,7

5,6

5,2

12,2

8,2

4,4

(большое число - похоже на спам. Обычное - не похоже на спам)

sabotage:
Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента

Я юзал Яндексовский Mystem. Но у поисковиков покруче всеравно алгоритм - они используют гигантские словари лемм, синонимов, переформулировки. Не понял, правда, как это к теме относится :)

sabotage
На сайте с 14.02.2007
Offline
192
#8
sni:
Не понял, правда, как это к теме относится

То есть? Получаешь леммы, смотришь кол-во вхождений, процент. По-моему, в разы веселее и нагляднее, чем архивировать.

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#9
sabotage:
Получаешь леммы, смотришь кол-во вхождений, процент

Ну это все могут.

Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?

Fruit
На сайте с 15.07.2008
Offline
166
#10
sni:
Ну это все могут.
Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?

Постранично получать леммы, смотреть кол-во вхождений, процент.

Использовать сжание - не вариант: текст, состоящий из двух одинаковых абзацев, сжат архиватором будет минимум в два раза, т.е. получится очень спамным, что не соотвествует действительности.

Надо считать TF-IDF для слов (словосочетаний) и проверять на превышение разумных пределов.

Но вообще, это всё очень приблизительный метод, т.к. Яндекс различает структуру документа и отличает тексты от меню, перечислений и т.д. Возможно, помните тему, когда сайт с зашкаливающим кол-вом вхождений "корм для собак" был в топе.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий