Чем удобней проверять сжимаемость текста?

12
sabotage
На сайте с 14.02.2007
Offline
192
#11

Вот стата суммарно по одному сайту (топ 50, мусор вычищен):

15104	осаго

6572 полис
5003 страховка
4994 страховой
4886 компания
4280 каско
4184 машина
3911 дтп
3444 страхование
3432 выплата
3041 авто
3014 виновник
2766 случай
2734 договор
2661 суд
2475 ущерб
2307 водитель
2253 средство
2226 сумма
2173 страховщик
2137 ответственность
2086 срок
2083 транспортный
2080 закон
1995 штраф
1946 документ
1931 автомобиль
1813 обязательный
1761 владелец
1643 лицо
1620 потерпевший
1549 стоимость
1525 платить
1453 вписать
1428 управление
1393 возмещение
1391 ремонт
1358 оформить
1283 талон
1235 застраховать
1226 выплатить
1222 стаж
1161 гражданский
1105 доверенность
1017 страховать
984 техосмотр
918 гаи
911 собственник
908 период
903 авария

Юзергенерейтед контент, спамность некоторых страниц зашкаливает, в индексе, трафик есть. Неблагодарное, в общем, дело (если ты не поисковик)

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#12
Fruit:
текст, состоящий из двух одинаковых абзацев, сжат архиватором будет минимум в два раза, т.е. получится очень спамным, что не соотвествует действительности.

. А какой нормальный текст состоит из двух одинаковых абзацев?

Fruit:
Надо считать TF-IDF для слов (словосочетаний) и проверять на превышение разумных пределов.

Сложно в промышленных масштабах.

По

sabotage:
Вот стата суммарно по одному сайту (топ 50, мусор вычищен):
Интересно, а чем суммарно по всему сайту такие данные можно посмотреть?
Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
sabotage
На сайте с 14.02.2007
Offline
192
#13
sni:
Интересно, а чем суммарно по всему сайту такие данные можно посмотреть?

У меня это встроено в типа_админку. Ну а вообще, в чем проблема получить контент из базы?

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#14
sabotage:
Ну а вообще, в чем проблема получить контент из базы?

Из чужой. У пары десятков сайтов =)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий