Анализ текста, тестируем.

1 234
one
На сайте с 15.04.2007
Offline
336
one
#21

С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...

Решения для автоматизации действий ( https://www.facebook.com/automationstudio20/ ) в интернете.
Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#22
mendel:
немного не понял. XSS? вроде неоткуда... весь ввод парсится..

да это просто проверка скрипта была. Вот и не стал менять.

mendel:
Помню.
mendel:
Не уверен что это правильный вариант.. просто каждый тест должен ругаться если ему не хватает информации...

Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)

Progr@mmer\. добавил 27.05.2008 в 01:39

one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.

mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:


"словосочетание 1" OR "словосочетание 2 и текст рядом" OR "текст рядом и словосочетание 3"

?

Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.

Используются ли в запросе к поисковику текст в кавычках? Т.е.:


"текст или словосочетание"

Если да, то сколько слов максимум и минимум подставляется в запрос?

Вырезаются ли из запроса слова <= 4 символов?

По-моему, стоит поразмышлять на заданные мной вопросы. :)

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.
one
На сайте с 15.04.2007
Offline
336
one
#23

Progr@mmer., понятно...Но меня это напугало и огорчило если честно... :)

mendel
На сайте с 06.03.2008
Offline
232
#24
one:
С определением уникальности что то не так... Обсалютно уникальный текст определил как неуникальный и вадал сайты схожей тематике но на них этого текста нет... вот...

Если неправильно ругается первый алгоритм то это плохо... а если второй то нормально, второй сильно придирчивый, его результаты надо руками проверять... всетаки это пока тестирование а не релиз, в релизе выдача второго будет называться чтото вроде "ВОЗМОЖНЫЕ копии".

Progr@mmer\.:
да это просто проверка скрипта была. Вот и не стал менять.

Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))

Progr@mmer\.:
Но тут случай, если информация вообще не введена. Зачем ругаться много раз, если можно один и мягко? :)

Если я буду отделять отдельно случай что ничего не введено, то я буду выражаться не мягко :)

я думаю может сделать if(count(список слов за вычетом стопслов и другой воды) < 3) скажем("Слишком мало информации для анализа");

просто лень писать еще одни шаблон (код как и положено отделен от html).. всетаки у ругательства немного другая структура...хотя чтото действительно прийдется сделать из вышеназванного.

Progr@mmer\.:
one, хех. :) Там ведь выдираются фразы, а не весь текст целиком. Так что он и определил как неуникальный.

угу.. и во втором алогритме условия довольно мягкие... но фразы не всякие выдираются, так что первый алгоритм довольно правдив.

Progr@mmer\.:
mendel, можешь рассказать, как формируется строка запроса в поисковик? Самые частые слова + окружающий их текст в таком виде:

Могу только в аську :) и без этого будут гулять по форумам и блогам алгортмы обхода :)

Progr@mmer\.:
Используется OR или AND? По-моему, логично использовать AND, если повторений слов/словосочетаний мало (например, меньше 5 для самого встречающегося), а OR использовать, когда повторений много, но нужно следить за тем, чтоб в запросе не были одинаковые (читай: похожие) словосочетания. Хотя, конечно же, тут нужно всё эксперементально подбирать.

запрос простенький, а алгоритм его формирования около 7кб занимает (не считая модуля морфологии который он тоже использует) :)

Progr@mmer\.:
Используются ли в запросе к поисковику текст в кавычках?

Только кавычки и есть. Без кавычек вообще белиберда выходит.

Progr@mmer\.:
Если да, то сколько слов максимум и минимум подставляется в запрос?

Минимум два слова в одной конструкции из кавычек... максимума нет... ограничивается только длиной запроса (есть механизм замены слишком длинных последовательностей более короткими)

Progr@mmer\.:
Вырезаются ли из запроса слова <= 4 символов?

меньше трех и стопслова.

Progr@mmer\.:
По-моему, стоит поразмышлять на заданные мной вопросы. :)

по моему тоже :)

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)
psylosss
На сайте с 23.12.2005
Offline
126
#25
mendel:
К сожалению более удачный алгоритм довольно ресурсоемок (в плане ресурсов на ручное составление базы)... в релизе будет оговорка что мол категории сильно приближенные и все такое...

Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.

Веб-разработка. Сложные проекты. Проектирование. Проект-менеджмент. Стартапы.
mendel
На сайте с 06.03.2008
Offline
232
#26
psylosss:
Попробуйте посмотреть в сторону ИИ. Пусть пользователи поправляют тематику, если она угадана неверно, и подтверждают, если она угадана верно (или распарсите какие-нибудь яндекс-новости по рубрикам). И не надо будет никакую БД руками забивать.

ИИ это жестоко. Размер обучающей последовательности должен быть слишком большой. Если КАЖДЫЙ выставит категорию, если она будет правильная и если людей будет в 20 раз больше чем сейчас то это займет несколько месяцев... :)

у меня правда сейчас мысль появилась прогнать базу в автомате по большой выборке текстов и сделать в ней отрицательные веса (используя в качестве обучающей последовательности выдачу самого рубрикатора) это может несколько улучшить качество, но все равно объем большой и лень :)

А на счет того чтобы попарсить - так откуда вы думаете взялась база в 50 тысяч слов с весами категорий? :) Правда парсили рамблер а не яндекс но какая разница...

Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#27
Progr@mmer.:
Используется OR или AND

Исправлюсь: для яндекса OR = ||, AND = &&.

mendel:
Караул!!! Еще не успел скрипт написать а хакеры уже ломают!!! )))))))))))))))))))

:-D

mendel:
запрос простенький, а алгоритм его формирования около 7кб занимает

не плохо. :)

psylosss:
распарсите какие-нибудь яндекс-новости по рубрикам

а вот это - отличная идея! По-моему, стоит задуматься о её реализации и тестировании отдельно на этой же системе анализа текстов.

mendel:
прогнать базу в автомате по большой выборке текстов

надеюсь, не referats.yandex.ru? :D

mendel
На сайте с 06.03.2008
Offline
232
#28
Progr@mmer\.:
надеюсь, не referats.yandex.ru? :D

))))))))))))))))

mendel добавил 28.05.2008 в 18:27

Нарисовал дизайн, если так можно сказать :)

Ссылки пока не сделал... как оно вам? Пойдет?

one
На сайте с 15.04.2007
Offline
336
one
#29

Симпатишно.... ;)

SR
На сайте с 09.05.2008
Offline
5
#30

Слушай, я проверяю свой текст, который с головы написал, а он - неуникальный.... Это как???

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий