Анализ текста, тестируем.

123 4
mendel
На сайте с 06.03.2008
Offline
232
#11
psylosss:
а не наоборот?

:) действительно - наоборот... мне показалось у тебя {2,2} :)

спасибо.

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)
psylosss
На сайте с 23.12.2005
Offline
126
#12

хотя тут лучше использовать квантификатор "+"...

\s+

Мы знакомы?

Веб-разработка. Сложные проекты. Проектирование. Проект-менеджмент. Стартапы.
mendel
На сайте с 06.03.2008
Offline
232
#13
psylosss:
хотя тут лучше использовать квантификатор "+"...
\s+

я подумал, и решил что надо "с пробелами" удалить вообще.. на сегодня это извращение )))

psylosss:
Мы знакомы?

незнаю.. )

PS: выключил все предсказания по морфологии, вроде особо не пострадало качество, а ложных слов стало поменьше...

mendel добавил 26.05.2008 в 00:20

PPS: оказалось что многие левые слова вылазили изза неправильной отработки буквы "Ё".

спасибо Progr@mmer. за то что обратил внимание на "ный".. оказывается это был "зелёный" порванный пополам...

W
На сайте с 24.11.2007
Offline
223
#14

Спасибо.

То что искал.

Это будет только в виде сервиса или возможна продажа скрипта?

mendel
На сайте с 06.03.2008
Offline
232
#15
webistin:
Спасибо.
То что искал.
Это будет только в виде сервиса или возможна продажа скрипта?

Если я продам скрипт, то сервис потеряет свою уникальность.

Так что сам посуди, какая должна быть цена чтобы я на это согласился? :)

вообще если посмотреть на то что написано под моим ником, то можно понять что я соглашусь на любую сделку.... если она мне будет выгодна. :)

Hkey
На сайте с 30.09.2006
Offline
222
#16

Молодца, мне понравилось.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#17

<script>alert('a')</script>
<?php
echo '1';
?>

->


Категории текста: , , .
Текст предположительно уникальный(1).
Текст предположительно уникальный(2).

1 - яндекс

2 - яху

?

Progr@mmer\. добавил 26.05.2008 в 15:33

analiz.php:


<?
$content = (isset($_POST['content'])) ? $_POST['content'] : false;
if (($content === false) or empty($content))
exit('Не введён текст для анализа!');

?>
Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.
mendel
На сайте с 06.03.2008
Offline
232
#18
Progr@mmer\.:

<script>alert('a')</script>
<?php
echo '1';
?>

немного не понял. XSS? вроде неоткуда... весь ввод парсится..

Progr@mmer\.:

Категории текста: , , .

Помню. В TODO есть... в разделе "Дизайн и эргономика" :)

Progr@mmer\.:

1 - яндекс
2 - яху
?

да, но не только.. там еще алгоритм отличается немного... у второго критерии помягче, и как следствие выше шанс ложного срабатывания, что бывает переодически... а у первого я не видел еще ложных срабатываний.

Progr@mmer\.:

<?
$content = (isset($_POST['content'])) ? $_POST['content'] : false;
if (($content === false) or empty($content))
exit('Не введён текст для анализа!');

?>

Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...

PS: спасибо :)

[Удален]
#19


Категории текста: Женский клуб, Компании, Страхование.

Наиболее частые слова:
компания --- 18 раз, 4.9% от ядра, 3.3% от всего текста
год --- 16 раз, 4.4% от ядра, 2.9% от всего текста
fiat --- 14 раз, 3.8% от ядра, 2.6% от всего текста
экскаватор --- 9 раз, 2.4% от ядра, 1.6% от всего текста
new --- 8 раз, 2.2% от ядра, 1.4% от всего текста
cnh --- 7 раз, 1.9% от ядра, 1.3% от всего текста
holland --- 7 раз, 1.9% от ядра, 1.3% от всего текста
техника --- 7 раз, 1.9% от ядра, 1.3% от всего текста
гусеничный --- 5 раз, 1.3% от ядра, 0.9% от всего текста
продукция --- 5 раз, 1.3% от ядра, 0.9% от всего текста
case --- 5 раз, 1.3% от ядра, 0.9% от всего текста
выпуск --- 4 раз, 1.1% от ядра, 0.7% от всего текста
организовать --- 4 раз, 1.1% от ядра, 0.7% от всего текста
объединить --- 4 раз, 1.1% от ядра, 0.7% от всего текста
ассортимент --- 4 раз, 1.1% от ядра, 0.7% от всего текста
погрузчик --- 4 раз, 1.1% от ядра, 0.7% от всего текста
мир --- 4 раз, 1.1% от ядра, 0.7% от всего текста
бульдозер --- 3 раз, 0.8% от ядра, 0.5% от всего текста
allis --- 3 раз, 0.8% от ядра, 0.5% от всего текста
концерн --- 3 раз, 0.8% от ядра, 0.5% от всего текста

Ну и где тут страхование, а в особенности женский клуб? 😎

mendel
На сайте с 06.03.2008
Offline
232
#20
Asklepiy:
Ну и где тут страхование, а в особенности женский клуб? 😎

Категории действительно немного напоминают гадание... поэтому я и привожу всегда первые ТРИ категории по приоритету, а не одну.. сам не доверяю рубрикатору.

К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий