Анализ текста, тестируем.

232

mendel

23 мая 2008, 10:00

3363

Написал сервис анализа текста.

Выделение ключевых слов, определение тематики (спасибо garem за базу)

немного статистики и поиск копий в интернете... в данный момент ищет в яндексе и как правило находит только четкие дубли или с минимальным количеством изменений потому что мало запросов яша дает. Потом подключу более интеллектуальные алгоритмы.

Дизайна пока нет :)

http://max.8kb.ru

адрес временный, когда закончим тестирование я перенесу на основной домен и скажу новый адрес :)

Сразу скажу что термины указанные в статистике придуманы "с потолка"... если предложите лучше буду благодарен... если есть мысли что еще вы бы хотели видеть то буду рад.

Что вообще за цифры?

В осоновном работа идет со списком слов из которых были отброшены стопслова, оценочные эпитеты и прочие "водянистые слова".

Водность это процент отброшеных слов.. нормальное значение 30-60% помагает немного представить себе качество текста... лично я пользуюсь этим параметром чисто интуитивно..

Вес первой десятки это каков процент в "обезвоженных словах" занимает первые десять слов из словаря..

Срез 10/40% показывает сколько слов нужно взять чтобы получить 10/40% от обезвоженного словаря...

эти три параметры помогают понять частотное распределение ключевиков и прочего.. "правильных" цифр несуществует, для каждой задачи свои..

Чтобы было проще понять что такое "вода" с точки зрения сервиса я приведу два примера:

Пример первый:

Любимый мой! Я хочу сказать тебе что я люблю тебя!
Ты самое лучшее, что когдато было у меня. Я никогда не смогу сказать тебе об этом, однако это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это?
Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я требую чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.

Пример второй:

Дьяченко Максим Игоревич.
Место жительства - город Одесса. Образование - Одесская Национальная Морская Академия. Специализация - программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотребляет интернетом. Знак зодиака - весы. Интелект выше среднего. Характер тяжелый. Знание иностранных языков - английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.

В первом примере 100% воды, во втором 0% воды :)

вообще конечно словарь будет еще правиться и правиться, но обая идея думаю ясна...

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)

232

mendel

25 мая 2008, 16:12

#1

Добавил еще один алгоритм проверки на уникальность... :)

Он несколько более гибкий, но больше шанс ложного срабатывания... :)

Ну и работает он на yahoo в отличии от яндекса в первом...

поскольку у них разная скорость индексации разных ресурсов то думаю это разумно...

в общем пинаем, пинаем, и еще раз пинаем... :p ;)

плиз, по больше коментов.. чем больше вы будете критиковать тем лучше я его сделаю, а вы потом будете пользоваться... :)

Яндекс кобласит Google ответил на ряд Падают просмотры на ютуб

$Progr@mmer\.$

44

Progr@mmer\.

25 мая 2008, 16:49

#2

ный --- 2 раз, 1.9% от ядра, 1.5% от всего текста

в тексте нет сочетания этих букв :) Сам текст привести могу только в личку

Категории текста: Игры, Дизайн, Музыка.

В принципе, правильно. Потому что вырезка эта из моей страницы Вконтакте %)

Длина БЕЗ пробелов и знаков препинания 0.202 тысяч символов.
Длина с пробелами 0.272 тысяч символов.

а зачем тут точка? :)

Твои глаза - в них отраженье молнии,
Твои ресницы - взмахом облака,
Твои слова - в них притяжение волнами,
Твой голос - звуки, музыка.

Ты мой магнит,
К тебе зовет и манит
Все существо, всю целиком меня,
Но только серце метко ранит
Тоска... ведь рядом нет тебя...

http://www.termitnik.ru/?a=poems&m=pg&pro=all&a_log=mayra

и где тут что-то аналогичное?

Категории текста: МР3, Музыка, Радио.

Неа :)

Результаты анализа.

В заголовках точка не ставиться

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.

Видео находится за пределами Одинаковй текст на страницах Яндекс кобласит

232

mendel

25 мая 2008, 17:16

#3

Progr@mmer\.:
в тексте нет сочетания этих букв :) Сам текст привести могу только в личку

слова после морфологии.. скорее всего глюк предсказателя... уже давно подумываю его отключить нафиг. но пока не решился.. кинь в личку плиз.

Progr@mmer\.:
а зачем тут точка? :)

потому что "тысяч"

Progr@mmer\.:
http://www.termitnik.ru/?a=poems&m=pg&pro=all&a_log=mayra
и где тут что-то аналогичное?

там было пару слов похожих... сильно короткий текст... для второго алгоритма мало пассажей, и он возможно изза этого неправильные запросы сгенерил... сделаю чтобы он в таких случаях не делал вообще этой проверки.... хотя текст короткий а значит можно ожидать такого.. да и я предупреждаю что у второго возможны ложные срабатывания...

Progr@mmer\.:
Неа :)

не придирайся... всетаки топ5 ключевиков вышло:

волна, голос, музыка, звук,слово

както лень учить бота распознавать еще и поэзию отдельно )))

Progr@mmer\.:
В заголовках точка не ставиться

угу.. есть такое, исправлюсь...

PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...

борьба с платными ссылками Упал доход Ваша площадка в Рекламной

$Progr@mmer\.$

44

Progr@mmer\.

25 мая 2008, 18:03

#4

mendel:
кинь в личку плиз.

кинул.

mendel:
потому что "тысяч"

Пардон, не досмотрел. :) Но, имхо, без таких "тысячных" данных делать.

mendel:
както лень учить бота распознавать еще и поэзию отдельно )))

:)))

mendel:
PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...

Потому что интересуют инновации в таких темах разработок. :) Сам подумывал заняться таким, но в слишком упрощенной форме.

Думаю, ещё потестирую на досуге.

Progr@mmer\. добавил 25.05.2008 в 22:05

Длина БЕЗ пробелов и знаков препинания 1.055 тысяч символов.
Длина с пробелами 1.219 тысяч символов.

Оно же, но после проверки:

Длина с пробелами: 1220.
Длина без пробелов:1056.

[Удален]

25 мая 2008, 18:14

#5

Анализировал текст на этой странице. Результат:

Длина с пробелами: 2289.
Длина без пробелов:1950.
Текст НЕУНИКАЛЬНЫЙ(1).
Список сайтов на которых есть этот текст:
www.profi-sp.ru
Текст НЕУНИКАЛЬНЫЙ(2).
Список сайтов на которых есть этот текст:
www.profi-sp.ru
www.profi-sp.ru
www.referats.net
Водность текста: 35%
Вес первой десятки: 24%
Срез 10%: 3 слов.
Срез 40%: 23 слов.
Словарь текста: 164 слов.
Обезвоженный словарь: 115 слов.
Категории текста: Безопасность, Технологии, Компании.

Наиболее частые слова:
компания --- 10 раз, 6% от ядра, 3.9% от всего текста
система --- 6 раз, 3.6% от ядра, 2.3% от всего текста
бизнес --- 4 раз, 2.4% от ядра, 1.5% от всего текста
оборудование --- 4 раз, 2.4% от ядра, 1.5% от всего текста
комплекс --- 3 раз, 1.8% от ядра, 1.1% от всего текста
решение --- 3 раз, 1.8% от ядра, 1.1% от всего текста
лицензия --- 3 раз, 1.8% от ядра, 1.1% от всего текста
технология --- 3 раз, 1.8% от ядра, 1.1% от всего текста
проект --- 3 раз, 1.8% от ядра, 1.1% от всего текста
поставка --- 2 раз, 1.2% от ядра, 0.7% от всего текста
поставлять --- 2 раз, 1.2% от ядра, 0.7% от всего текста
включать --- 2 раз, 1.2% от ядра, 0.7% от всего текста
деятельность --- 2 раз, 1.2% от ядра, 0.7% от всего текста
работа --- 2 раз, 1.2% от ядра, 0.7% от всего текста
современный --- 2 раз, 1.2% от ядра, 0.7% от всего текста
обработка --- 2 раз, 1.2% от ядра, 0.7% от всего текста
развиваться --- 2 раз, 1.2% от ядра, 0.7% от всего текста
центр --- 2 раз, 1.2% от ядра, 0.7% от всего текста
сотрудник --- 2 раз, 1.2% от ядра, 0.7% от всего текста
внедрение --- 2 раз, 1.2% от ядра, 0.7% от всего текста

В общем, почти верно. Только здесь ничего похожего не наблюдается.

232

mendel

25 мая 2008, 18:52

#6

Progr@mmer\.:
кинул.

спасибо... калоритный текст вышел...

наверное прийдется таки выключать когото из предсказателей...

Progr@mmer\.:
Думаю, ещё потестирую на досуге.

буду благодарен.

Progr@mmer\.:
Оно же, но после проверки:

$content=str_replace('  ',' ',$content); // почикаем двойные пробелы.

а в JS этого нет... как думаешь какой вариант более правильный? удалить эту инструкцию в php или добавить ее в JS? :)

Psycho:
Только здесь ничего похожего не наблюдается.

похожее немного есть.. в таком то тексте )))

но конечно холостой выстрел... незнаю пока как с этим бороться.

кстати у копискайпа тоже периодически бывают неправильные копии...

126

psylosss

25 мая 2008, 19:01

#7

 $content=str_replace('  ',' ',$content); // почикаем двойные пробелы.

--------->

 $content=preg_replace('@\s{2,}@',' ',$content); // почикаем двойные пробелы.

Веб-разработка. Сложные проекты. Проектирование. Проект-менеджмент. Стартапы.

$Progr@mmer\.$

44

Progr@mmer\.

25 мая 2008, 19:02

#8

mendel:
как думаешь какой вариант более правильный?

Добавить в JS. Так будет правильнее.

232

mendel

25 мая 2008, 19:13

#9

psylosss:

 $content=str_replace('  ',' ',$content); // почикаем двойные пробелы.

--------->

 $content=preg_replace('@\s{2,}@',' ',$content); // почикаем двойные пробелы.

объясни смысл?

вопервых через регулярку медленнее. а во вторых регулярка убирает только двойные...

126

psylosss

25 мая 2008, 19:16

#10

mendel:
а во вторых регулярка убирает только двойные...

а не наоборот?

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, если ваша email-рассылка попала в спам