- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.
Есть какие-нить удобные бары, плагины, чтобы можно было налету оценивать сжимаемость текстов на страницах?
Кто-нить использует этот метод, вообще, и чем пользуется?
Есть легкой способ мерить спамность и количество "воды" в тексте - смотреть как его сжимают архиваторы.
Этопять! 10
Этопять! 10
Что не так?
http://jmlr.csail.mit.edu/papers/volume7/bratko06a/bratko06a.pdf
http://bazzinga.org/upload-files/poisk_neestestvennih_textov_statia.pdf
http://rcdl.ru/doc/2011/27_pavlov.ppt
sni, дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.
sni, доки разбирать лень, но неужели там сказано, что воду можно определить архиватором? Бред еще тот.
---------- Добавлено 18.05.2012 в 10:16 ----------
юни, есть такие варианты, спамность определять можно попробовать, а воду как?
дядька, проблема не в методиках, а в алгоритмах архивации - они работают с буквами, а не со словами. Соответственно, проверять архиваторами можно лишь символьную "перенасыщенность", а не смысловую и прочую.
Да не. Алгоритмы архивации сейчас крутые. Все, наверное, замечали что тексты очень хорошо сжимаются архиваторами.
Там довольно продвинутые аглоритмы. Они не только словари текста создают, но и учитывают часто встречаемые биграммы триграммы слов.
Эта часть алго архиваторов напоминает алго поиска избыточных, неестественных, повторений фраз.
Доказательство: взять блокнот, написать там
Запаковываем RAR'ом, получается файл размером 800 байт (из которых, наверное большая часть это служебная инфа и заголовки).
Явно сжатие не посимвольное? :)
sabotage, там результаты исследований, где видно что спамность хорошо кореллирует со сжимаемостью текста. Инфа столетней давности, просто никто вроде удобных утилит так и не придумал. Думаю может я один такой отсталый, с winRAR'ом)
В работе [5] был построен
классификатор спама, использовавший несколько таких признаков, как сжимаемость документа,
средняя вероятность триграмм, доля частых слов в документе и другие – которые затем были собраны в дерево решений при помощи алгоритма машинного обучения
- Все перечисленное используется уже 10 лет winrar для сжатия текста.
В викимарте, если верить их отделу лингвистов, оценивают текст так - но они не делятся утилитами)
а воду как
Вода - это часто большое количество всяких служебных слов, повторяющихся длинных текстовых конструкций. Замечал, что в текстах "ни о чем", меньшее количество лемм, занимают большее количество текста.
Ну, например (цифры условные):
Нормальный текст: 25 самых частотных слов занимают 35% объема всего текста
Текст с водой: 25 самых частотных занимают 55% объема текста
В общем, объясняя на пальцах, разнообразный корпус слов и фраз сжать сложнее, чем однообразный)
sni, зачем винрар? Получить леммы и их процент совсем не сложно.
Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента.
Текст с водой: 25 самых частотных занимают 55% объема текста
Спасибо, это, в принципе, интересно.
Можно попробовать
1. Получить стату по кеям newsru, ленты, etc
2. Пройтись по продажным разделам сайтов миралинкса, пересчитать их.
Но по словам вполне облом может случится, шинглы сравнивать надо (а это уже гемморой)
sabotage, винрар(или zip) - потому что там очень крутой алго поиска похожих частей текстов, которые можно ужать, отточенный годами. Соответственно, если:
-большая плотность ключевиков
-много повторяющихся двух/трех-словников
-"Текст с водой: 25 самых частотных занимают 55% объема текста"
то коэффициент сжатия такого текста будет больше чем нормального текста. Это подтверждают эксперименты в докладах. Спам сжимается больше, чем нормальный текст.
Чем плох способ? Он сразу выдает цифры, которые коррелируют со спамностью.
Например
6,7
5,6
5,2
12,2
8,2
4,4
(большое число - похоже на спам. Обычное - не похоже на спам)
Лет 5 использую phpmorphy для выделения общей темы/кеев из тонн контента
Я юзал Яндексовский Mystem. Но у поисковиков покруче всеравно алгоритм - они используют гигантские словари лемм, синонимов, переформулировки. Не понял, правда, как это к теме относится :)
Не понял, правда, как это к теме относится
То есть? Получаешь леммы, смотришь кол-во вхождений, процент. По-моему, в разы веселее и нагляднее, чем архивировать.
Получаешь леммы, смотришь кол-во вхождений, процент
Ну это все могут.
Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?
Ну это все могут.
Как, например, с помощью этого метода проверить 1000 страниц доноров на переспам?
Постранично получать леммы, смотреть кол-во вхождений, процент.
Использовать сжание - не вариант: текст, состоящий из двух одинаковых абзацев, сжат архиватором будет минимум в два раза, т.е. получится очень спамным, что не соотвествует действительности.
Надо считать TF-IDF для слов (словосочетаний) и проверять на превышение разумных пределов.
Но вообще, это всё очень приблизительный метод, т.к. Яндекс различает структуру документа и отличает тексты от меню, перечислений и т.д. Возможно, помните тему, когда сайт с зашкаливающим кол-вом вхождений "корм для собак" был в топе.