mendel

mendel
Рейтинг
232
Регистрация
06.03.2008
psylosss:
Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.

ИИ это жестоко. Размер обучающей последовательности должен быть слишком большой. Если КАЖДЫЙ выставит категорию, если она будет правильная и если людей будет в 20 раз больше чем сейчас то это займет несколько месяцев... :)

у меня правда сейчас мысль появилась прогнать базу в автомате по большой выборке текстов и сделать в ней отрицательные веса (используя в качестве обучающей последовательности выдачу самого рубрикатора) это может несколько улучшить качество, но все равно объем большой и лень :)

А на счет того чтобы попарсить - так откуда вы думаете взялась база в 50 тысяч слов с весами категорий? :) Правда парсили рамблер а не яндекс но какая разница...

one:
С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...

Если неправильно ругается первый алгоритм то это плохо... а если второй то нормально, второй сильно придирчивый, его результаты надо руками проверять... всетаки это пока тестирование а не релиз, в релизе выдача второго будет называться чтото вроде "ВОЗМОЖНЫЕ копии".

Progr@mmer\.:
да это просто проверка скрипта была. Вот и не стал менять.

Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))

Progr@mmer\.:
Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)

Если я буду отделять отдельно случай что ничего не введено, то я буду выражаться не мягко :)

я думаю может сделать if(count(список слов за вычетом стопслов и другой воды) < 3) скажем("Слишком мало информации для анализа");

просто лень писать еще одни шаблон (код как и положено отделен от html).. всетаки у ругательства немного другая структура...хотя чтото действительно прийдется сделать из вышеназванного.

Progr@mmer\.:
one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.

угу.. и во втором алогритме условия довольно мягкие... но фразы не всякие выдираются, так что первый алгоритм довольно правдив.

Progr@mmer\.:
mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:

Могу только в аську :) и без этого будут гулять по форумам и блогам алгортмы обхода :)

Progr@mmer\.:
Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.

запрос простенький, а алгоритм его формирования около 7кб занимает (не считая модуля морфологии который он тоже использует) :)

Progr@mmer\.:
Используются ли в запросе к поисковику текст в кавычках?

Только кавычки и есть. Без кавычек вообще белиберда выходит.

Progr@mmer\.:
Если да, то сколько слов максимум и минимум подставляется в запрос?

Минимум два слова в одной конструкции из кавычек... максимума нет... ограничивается только длиной запроса (есть механизм замены слишком длинных последовательностей более короткими)

Progr@mmer\.:
Вырезаются ли из запроса слова <= 4 символов?

меньше трех и стопслова.

Progr@mmer\.:
По-моему, стоит поразмышлять на заданные мной вопросы. :)

по моему тоже :)

Asklepiy:
Ну и где тут страхование, а в особенности женский клуб? 😎

Категории действительно немного напоминают гадание... поэтому я и привожу всегда первые ТРИ категории по приоритету, а не одну.. сам не доверяю рубрикатору.

К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...

Progr@mmer\.:

<script>alert('a')</script>
<?php
echo '1';
?>

немного не понял. XSS? вроде неоткуда... весь ввод парсится..

Progr@mmer\.:

Категории текста: , , .

Помню. В TODO есть... в разделе "Дизайн и эргономика" :)

Progr@mmer\.:

1 - яндекс
2 - яху
?

да, но не только.. там еще алгоритм отличается немного... у второго критерии помягче, и как следствие выше шанс ложного срабатывания, что бывает переодически... а у первого я не видел еще ложных срабатываний.

Progr@mmer\.:

<?
$content = (isset($_POST['content'])) ? $_POST['content'] : false;
if (($content === false) or empty($content))
exit('Не введён текст для анализа!');

?>

Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...

PS: спасибо :)

webistin:
Спасибо.
То что искал.
Это будет только в виде сервиса или возможна продажа скрипта?

Если я продам скрипт, то сервис потеряет свою уникальность.

Так что сам посуди, какая должна быть цена чтобы я на это согласился? :)

вообще если посмотреть на то что написано под моим ником, то можно понять что я соглашусь на любую сделку.... если она мне будет выгодна. :)

psylosss:
хотя тут лучше использовать квантификатор "+"...
\s+

я подумал, и решил что надо "с пробелами" удалить вообще.. на сегодня это извращение )))

psylosss:
Мы знакомы?

незнаю.. )

PS: выключил все предсказания по морфологии, вроде особо не пострадало качество, а ложных слов стало поменьше...

mendel добавил 26.05.2008 в 00:20

PPS: оказалось что многие левые слова вылазили изза неправильной отработки буквы "Ё".

спасибо Progr@mmer. за то что обратил внимание на "ный".. оказывается это был "зелёный" порванный пополам...

psylosss:
а не наоборот?

:) действительно - наоборот... мне показалось у тебя {2,2} :)

спасибо.

psylosss:
 $content=str_replace('  ',' ',$content); // почикаем двойные пробелы.  

--------->
 $content=preg_replace('@\s{2,}@',' ',$content); // почикаем двойные пробелы.  

объясни смысл?

вопервых через регулярку медленнее. а во вторых регулярка убирает только двойные...

Progr@mmer\.:
кинул.

спасибо... калоритный текст вышел...

наверное прийдется таки выключать когото из предсказателей...

Progr@mmer\.:
Думаю, ещё потестирую на досуге.

буду благодарен.

Progr@mmer\.:
Оно же, но после проверки:

$content=str_replace('  ',' ',$content); // почикаем двойные пробелы.

а в JS этого нет... как думаешь какой вариант более правильный? удалить эту инструкцию в php или добавить ее в JS? :)

Psycho:
Только здесь ничего похожего не наблюдается.

похожее немного есть.. в таком то тексте )))

но конечно холостой выстрел... незнаю пока как с этим бороться.

кстати у копискайпа тоже периодически бывают неправильные копии...

Progr@mmer\.:
в тексте нет сочетания этих букв :) Сам текст привести могу только в личку

слова после морфологии.. скорее всего глюк предсказателя... уже давно подумываю его отключить нафиг. но пока не решился.. кинь в личку плиз.

Progr@mmer\.:
а зачем тут точка? :)

потому что "тысяч"

Progr@mmer\.:
http://www.termitnik.ru/?a=poems&m=pg&pro=all&a_log=mayra
и где тут что-то аналогичное?

там было пару слов похожих... сильно короткий текст... для второго алгоритма мало пассажей, и он возможно изза этого неправильные запросы сгенерил... сделаю чтобы он в таких случаях не делал вообще этой проверки.... хотя текст короткий а значит можно ожидать такого.. да и я предупреждаю что у второго возможны ложные срабатывания...

Progr@mmer\.:
Неа :)

не придирайся... всетаки топ5 ключевиков вышло:

волна, голос, музыка, звук,слово

както лень учить бота распознавать еще и поэзию отдельно )))

Progr@mmer\.:
В заголовках точка не ставиться

угу.. есть такое, исправлюсь...

PS: спасибо, ты первый за 5 дней тестов кто так подробно высказался...

Всего: 1906