Попробуйте попарсить свой текст, который с головы написал и вадал сайты схожей тематике - Сервисы и программы для работы с SE

Анализ текста, тестируем.

mendel · 2026-07-01T11:07:30.0000000Z

Написал сервис анализа текста. Выделение ключевых слов, определение тематики (спасибо garem за базу) немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы. Дизайна пока нет :) http://max.8kb.ru адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :) Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад. Что вообще за цифры? В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова". Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно.. Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря.. Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря... эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои.. Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера: Пример первый: Любимый мой! Я хочу сказать тебе что я люблю тебя! Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это? Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя. Пример второй: Дьяченко Максим Игоревич. Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотребляет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный. В первом примере 100% воды, во втором 0% воды :) вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...

336

one

26 мая 2008, 21:22

#21

С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...

Решения для автоматизации действий ( https://www.facebook.com/automationstudio20/ ) в интернете.

$Progr@mmer\.$

44

Progr@mmer\.

26 мая 2008, 21:30

#22

mendel:
немного не понял. XSS? вроде неоткуда... весь ввод парсится..

да это просто проверка скрипта была. Вот и не стал менять.

mendel:
Помню.

mendel:
Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...

Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)

Progr@mmer\. добавил 27.05.2008 в 01:39

one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.

mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:

"словосочетание 1" OR "словосочетание 2 и текст рядом" OR "текст рядом и словосочетание 3"

?

Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.

Используются ли в запросе к поисковику текст в кавычках? Т.е.:

"текст или словосочетание"

Если да, то сколько слов максимум и минимум подставляется в запрос?

Вырезаются ли из запроса слова <= 4 символов?

По-моему, стоит поразмышлять на заданные мной вопросы. :)

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.

336

one

26 мая 2008, 21:48

#23

Progr@mmer., понятно...Но меня это напугало и огорчило если честно... :)

232

mendel

26 мая 2008, 22:55

#24

one:
С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...

Если неправильно ругается первый алгоритм то это плохо... а если второй то нормально, второй сильно придирчивый, его результаты надо руками проверять... всетаки это пока тестирование а не релиз, в релизе выдача второго будет называться чтото вроде "ВОЗМОЖНЫЕ копии".

Progr@mmer\.:
да это просто проверка скрипта была. Вот и не стал менять.

Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))

Progr@mmer\.:
Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)

Если я буду отделять отдельно случай что ничего не введено, то я буду выражаться не мягко :)

я думаю может сделать if(count(список слов за вычетом стопслов и другой воды) < 3) скажем("Слишком мало информации для анализа");

просто лень писать еще одни шаблон (код как и положено отделен от html).. всетаки у ругательства немного другая структура...хотя чтото действительно прийдется сделать из вышеназванного.

Progr@mmer\.:
one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.

угу.. и во втором алогритме условия довольно мягкие... но фразы не всякие выдираются, так что первый алгоритм довольно правдив.

Progr@mmer\.:
mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:

Могу только в аську :) и без этого будут гулять по форумам и блогам алгортмы обхода :)

Progr@mmer\.:
Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.

запрос простенький, а алгоритм его формирования около 7кб занимает (не считая модуля морфологии который он тоже использует) :)

Progr@mmer\.:
Используются ли в запросе к поисковику текст в кавычках?

Только кавычки и есть. Без кавычек вообще белиберда выходит.

Progr@mmer\.:
Если да, то сколько слов максимум и минимум подставляется в запрос?

Минимум два слова в одной конструкции из кавычек... максимума нет... ограничивается только длиной запроса (есть механизм замены слишком длинных последовательностей более короткими)

Progr@mmer\.:
Вырезаются ли из запроса слова <= 4 символов?

меньше трех и стопслова.

Progr@mmer\.:
По-моему, стоит поразмышлять на заданные мной вопросы. :)

по моему тоже :)

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)

126

psylosss

27 мая 2008, 03:55

#25

mendel:
К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...

Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.

Веб-разработка. Сложные проекты. Проектирование. Проект-менеджмент. Стартапы.

232

mendel

27 мая 2008, 10:09

#26

psylosss:
Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.

ИИ это жестоко. Размер обучающей последовательности должен быть слишком большой. Если КАЖДЫЙ выставит категорию, если она будет правильная и если людей будет в 20 раз больше чем сейчас то это займет несколько месяцев... :)

у меня правда сейчас мысль появилась прогнать базу в автомате по большой выборке текстов и сделать в ней отрицательные веса (используя в качестве обучающей последовательности выдачу самого рубрикатора) это может несколько улучшить качество, но все равно объем большой и лень :)

А на счет того чтобы попарсить - так откуда вы думаете взялась база в 50 тысяч слов с весами категорий? :) Правда парсили рамблер а не яндекс но какая разница...

$Progr@mmer\.$

44

Progr@mmer\.

27 мая 2008, 12:49

#27

Progr@mmer.:
Используется OR или AND

Исправлюсь: для яндекса OR = ||, AND = &&.

mendel:
Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))

:-D

mendel:
запрос простенький, а алгоритм его формирования около 7кб занимает

не плохо. :)

psylosss:
распарсите какие-нибудь яндекс-новости по рубрикам

а вот это - отличная идея! По-моему, стоит задуматься о её реализации и тестировании отдельно на этой же системе анализа текстов.

mendel:
прогнать базу в автомате по большой выборке текстов

надеюсь, не referats.yandex.ru? :D

232

mendel

27 мая 2008, 15:29

#28

Progr@mmer\.:
надеюсь, не referats.yandex.ru? :D

))))))))))))))))

mendel добавил 28.05.2008 в 18:27

Нарисовал дизайн, если так можно сказать :)

Ссылки пока не сделал... как оно вам? Пойдет?

336

one

28 мая 2008, 20:18

#29

Симпатишно.... ;)

SR

5

SAWYER

28 мая 2008, 20:25

#30

Слушай, я проверяю свой текст, который с головы написал, а он - неуникальный.... Это как???

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Анализ текста, тестируем.