ИИ это жестоко. Размер обучающей последовательности должен быть слишком большой. Если КАЖДЫЙ выставит категорию, если она будет правильная и если людей будет в 20 раз больше чем сейчас то это займет несколько месяцев... :)
у меня правда сейчас мысль появилась прогнать базу в автомате по большой выборке текстов и сделать в ней отрицательные веса (используя в качестве обучающей последовательности выдачу самого рубрикатора) это может несколько улучшить качество, но все равно объем большой и лень :)
А на счет того чтобы попарсить - так откуда вы думаете взялась база в 50 тысяч слов с весами категорий? :) Правда парсили рамблер а не яндекс но какая разница...
Если неправильно ругается первый алгоритм то это плохо... а если второй то нормально, второй сильно придирчивый, его результаты надо руками проверять... всетаки это пока тестирование а не релиз, в релизе выдача второго будет называться чтото вроде "ВОЗМОЖНЫЕ копии".
Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))
Если я буду отделять отдельно случай что ничего не введено, то я буду выражаться не мягко :)
я думаю может сделать if(count(список слов за вычетом стопслов и другой воды) < 3) скажем("Слишком мало информации для анализа");
просто лень писать еще одни шаблон (код как и положено отделен от html).. всетаки у ругательства немного другая структура...хотя чтото действительно прийдется сделать из вышеназванного.
угу.. и во втором алогритме условия довольно мягкие... но фразы не всякие выдираются, так что первый алгоритм довольно правдив.
Могу только в аську :) и без этого будут гулять по форумам и блогам алгортмы обхода :)
запрос простенький, а алгоритм его формирования около 7кб занимает (не считая модуля морфологии который он тоже использует) :)
Только кавычки и есть. Без кавычек вообще белиберда выходит.
Минимум два слова в одной конструкции из кавычек... максимума нет... ограничивается только длиной запроса (есть механизм замены слишком длинных последовательностей более короткими)
меньше трех и стопслова.
по моему тоже :)
Категории действительно немного напоминают гадание... поэтому я и привожу всегда первые ТРИ категории по приоритету, а не одну.. сам не доверяю рубрикатору.
К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...
немного не понял. XSS? вроде неоткуда... весь ввод парсится..
Помню. В TODO есть... в разделе "Дизайн и эргономика" :)
да, но не только.. там еще алгоритм отличается немного... у второго критерии помягче, и как следствие выше шанс ложного срабатывания, что бывает переодически... а у первого я не видел еще ложных срабатываний.
Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...
PS: спасибо :)
Если я продам скрипт, то сервис потеряет свою уникальность.
Так что сам посуди, какая должна быть цена чтобы я на это согласился? :)
вообще если посмотреть на то что написано под моим ником, то можно понять что я соглашусь на любую сделку.... если она мне будет выгодна. :)
я подумал, и решил что надо "с пробелами" удалить вообще.. на сегодня это извращение )))
незнаю.. )
PS: выключил все предсказания по морфологии, вроде особо не пострадало качество, а ложных слов стало поменьше...
mendel добавил 26.05.2008 в 00:20
PPS: оказалось что многие левые слова вылазили изза неправильной отработки буквы "Ё".
спасибо Progr@mmer. за то что обратил внимание на "ный".. оказывается это был "зелёный" порванный пополам...
:) действительно - наоборот... мне показалось у тебя {2,2} :)
спасибо.
$content=str_replace(' ',' ',$content); // почикаем двойные пробелы.
$content=preg_replace('@\s{2,}@',' ',$content); // почикаем двойные пробелы.
объясни смысл?
вопервых через регулярку медленнее. а во вторых регулярка убирает только двойные...
спасибо... калоритный текст вышел...
наверное прийдется таки выключать когото из предсказателей...
буду благодарен.
а в JS этого нет... как думаешь какой вариант более правильный? удалить эту инструкцию в php или добавить ее в JS? :)
похожее немного есть.. в таком то тексте )))
но конечно холостой выстрел... незнаю пока как с этим бороться.
кстати у копискайпа тоже периодически бывают неправильные копии...
слова после морфологии.. скорее всего глюк предсказателя... уже давно подумываю его отключить нафиг. но пока не решился.. кинь в личку плиз.
потому что "тысяч"
там было пару слов похожих... сильно короткий текст... для второго алгоритма мало пассажей, и он возможно изза этого неправильные запросы сгенерил... сделаю чтобы он в таких случаях не делал вообще этой проверки.... хотя текст короткий а значит можно ожидать такого.. да и я предупреждаю что у второго возможны ложные срабатывания...
не придирайся... всетаки топ5 ключевиков вышло:
волна, голос, музыка, звук,слово
както лень учить бота распознавать еще и поэзию отдельно )))
угу.. есть такое, исправлюсь...
PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...