Кто-то разбирается в поисковых алгоритмах? Нужна помощь.

<BOBER-3>
На сайте с 16.07.2005
Offline
71
#11
Sadie:
А вот зачем-нибудь мне захотелось высказаться... :)

и спасибо :)

в принципе что-то в этом есть, по крайней мере уже не полный мрак для меня, спасибо, обдумаем

вот только как преобразовывать слово в базовые формы пока не ясно 😕

rst:
Бобер, вы зря недооцениваете возможности мускуля.
В свое время я работал с базами размером в несколько миллионов записей. Все было весьма шустро. Так что (имхо) наворачивать бесполезно.

и я сталкивался :)

да, для большенства целей относительно быстро работает по простой выборке, без каких-либо хитрых алгоритмов организации структуры бд

но тут дело будет сложнее

rst:
Рекомендую скорость селекта погонять.

какраз этим сейчас и занимаюсь

точнее генерирую таблицу для теста

что-то минут 30 уже генирируется, а конца этому и не видно... 😮

«Катастрофы дизайна (http://designs-crash.blogspot.com/
[Удален]
#12
rst:
Бобер, вы зря недооцениваете возможности мускуля.
В свое время я работал с базами размером в несколько миллионов записей. Все было весьма шустро. Так что (имхо) наворачивать бесполезно.
Рекомендую скорость селекта погонять.
А индексы строить - это (имхо) будет весьма долго по разработке. И не думаю, что быстрее по скорости. Мускуль он ведь тоже индексы строит :)

LIKE '%слово%' по текстовому полю - крайне медленно в нем выполняется. То есть даже гораздо медленнее чем должно выполняться.

<BOBER-3>
На сайте с 16.07.2005
Offline
71
#13
Interitus:
LIKE '%слово%' по текстовому полю - крайне медленно в нем выполняется. То есть даже гораздо медленнее чем должно выполняться.

конечно, это по сути идет какой-то примитивный алгоритм поиска подстроки в строке, скорее всего просто последовательный перебор, для обработки больших объемов данных вряд ли подойдет, тут нужна продуманная организация БД и алгоритмов работы поиска

хотя как я говорил, даже если поиск будет занимать до 2-3 минут, это не критично в данном случае, так что щас провожу опыты (правда сервер будет жалко... хотя он то все равно не мой 😂 )

Sadie
На сайте с 11.04.2005
Offline
64
#14
<BOBER-3>:
вот только как преобразовывать слово в базовые формы пока не ясно

Кхм! Я бы для начала повспоминала как выглядит учебник русского языка. Посмотреть там спряжения и падежи глаголов, а также изменения существительных. Мне кажется, там это должно быть как-то формализовано.

Новости без комплексов (http://www.kompleksov.net/) | ЖЖ (http://sad-sadie.livejournal.com/)
<BOBER-3>
На сайте с 16.07.2005
Offline
71
#15
Sadie:
Кхм! Я бы для начала повспоминала как выглядит учебник русского языка. Посмотреть там спряжения и падежи глаголов, а также изменения существительных. Мне кажется, там это должно быть как-то формализовано.

я с Киева, русский в школе не учили, какой учебник вспоминать?

😂

походу придется учить... просто может готовый алгоритм какой имеется? :)

это, я тут только что sms набирал сестренке, у меня в телефоне какая-то функция есть, кароче не по символам набирать (на каждой же кнопке по 3-4 буквы), а сразу жмешь, а он там сам как-то анализирует и собирает слова (ну я думаю вы поняли о чем я?) ну ошибается иногда, редко... не критично... это же явно какой-то алгоритм там анализирует последовательность возможных букв и подставляет наиболее распространенный вариант, никто не знает как это реализовано?

R
На сайте с 19.01.2006
Offline
60
rst
#16
<BOBER-3>:
я с Киева, русский в школе не учили, какой учебник вспоминать?
😂
походу придется учить... просто может готовый алгоритм какой имеется? :)
это, я тут только что sms набирал сестренке, у меня в телефоне какая-то функция есть, кароче не по символам набирать (на каждой же кнопке по 3-4 буквы), а сразу жмешь, а он там сам как-то анализирует и собирает слова (ну я думаю вы поняли о чем я?) ну ошибается иногда, редко... не критично... это же явно какой-то алгоритм там анализирует последовательность возможных букв и подставляет наиболее распространенный вариант, никто не знает как это реализовано?

тут ищи. там много подобных программ есть.

http://www.rvb.ru/soft/catalogue/c04.html

www.captchabot.com (www.captchabot.com) - распознавание captcha (http://www.captchabot.com)
<BOBER-3>
На сайте с 16.07.2005
Offline
71
#17

rst, о, спасибо, полезно будет :) сейщас поизучаем...

а вообще такие линки на этом форуме лучше не светить, думаю ясно почему? :D

R
На сайте с 19.01.2006
Offline
60
rst
#18
<BOBER-3>:
rst, о, спасибо, полезно будет :) сейщас поизучаем...
а вообще такие линки на этом форуме лучше не светить, думаю ясно почему? :D

да ну. ничего предосудительного не вижу.

Это найти при желании в гугле за пару минут можно.

<BOBER-3>
На сайте с 16.07.2005
Offline
71
#19

тэкс... по поводу селекта, сделал бд примерно на 10% от начальной той, что будет там, поиск по одной фразе занимал нереально долго даже из учета не критичности в 1-2 минуты :)

идем дальше...

R
На сайте с 19.01.2006
Offline
60
rst
#20

попробуй "оглавление" чтоли сделать.

1) Имеешь таблиц у : слово => документы, в которых встречается

2) режешь статьи на слова (опять же содержащие смысл + в базовой форме), и ставишь соответствующие ссылки в таблице.

тогда никаких like не нужно.

при запросе - определяешь наборы документов, где встречаются слова из запроса.

после этого выделяешь документы, где встречаются все слова запроса.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий