Обдумаем алгоритм поиска подстроки в строке - Самые разные темы

Кто-то разбирается в поисковых алгоритмах? Нужна помощь.

 · 2006-01-19T21:21:15.0000000Z

хороший друг попросил меня я, к сожалению, только развел руками работает он кем-то типа программиста-админа в консалтинговой компании, с инетом как таковым и не сталкивается, поэтому я за него спрашиваю у них там куча каких-то актов, документов законов, они частично как-то упорядочены, но этого мало в общем как он там не пытался сьехать на сторонние продукты, ему поручили разработать систему для поиска во всем этом в принципе все легко, нинадо даже ничто никак католагизировать, просто нужно осуществлять поиск текста по документам оказалось бы тут можно даже системными средствами windows справится, но не тут то было: документов таких около 400000 файлов общим весом примерно 15гб...:rolleyes: :eek: в общем тут ясно, что ни средства винды ни какая другая софтина не справится с такой задачей при таких условиях: файлы явно надо загонять в базу данных и через нее уже очещуствлять поиск я вот почему-то я всегда считал что проводить индексацию данных и осуществлять поиск по их индексу это вообще раз плюнуть, что проблема и все сложности только в сортировке, а точнее, в определении релевантности документа но как я согласился ему помочть и перешел к практике, оказалось что я вообще ничего в этом не понимаю так что большая просьба ко всем помочь кто чем может - статьей, книгой, личным опытом, знаю тут есть разработчики некоторых вэб поисковиков (те же Мета или БигМир), буду очень благодарен за любую помощь, тем более что мы же не конкуренты :d все, что необходимо - это просто выполнить поиск по текстовому запросу, например, "ля-ля-ля, тополя цветут" и вывести документы с этими словами, никакой сортировки не надо, т.к. предпологается что документов, соответствующих каждому из запросов будет не более десятка итак, конкретные проблемы: - организация базы данных - как и в каком формате хранить индекс файлов? - алгоритм поиска - как в готовой базе данных найти участок текста (документ), воответствующий запросу? всем заранее большое спасибо за любое содействие в решении проблемы

71

<BOBER-3>

20 января 2006, 17:13

#11

Sadie:
А вот зачем-нибудь мне захотелось высказаться... :)

и спасибо :)

в принципе что-то в этом есть, по крайней мере уже не полный мрак для меня, спасибо, обдумаем

вот только как преобразовывать слово в базовые формы пока не ясно 😕

rst:
Бобер, вы зря недооцениваете возможности мускуля.
В свое время я работал с базами размером в несколько миллионов записей. Все было весьма шустро. Так что (имхо) наворачивать бесполезно.

и я сталкивался :)

да, для большенства целей относительно быстро работает по простой выборке, без каких-либо хитрых алгоритмов организации структуры бд

но тут дело будет сложнее

rst:
Рекомендую скорость селекта погонять.

какраз этим сейчас и занимаюсь

точнее генерирую таблицу для теста

что-то минут 30 уже генирируется, а конца этому и не видно... 😮

«Катастрофы дизайна (http://designs-crash.blogspot.com/)»

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

20 января 2006, 17:20

#12

rst:
Бобер, вы зря недооцениваете возможности мускуля.
В свое время я работал с базами размером в несколько миллионов записей. Все было весьма шустро. Так что (имхо) наворачивать бесполезно.
Рекомендую скорость селекта погонять.
А индексы строить - это (имхо) будет весьма долго по разработке. И не думаю, что быстрее по скорости. Мускуль он ведь тоже индексы строит :)

LIKE '%слово%' по текстовому полю - крайне медленно в нем выполняется. То есть даже гораздо медленнее чем должно выполняться.

71

<BOBER-3>

20 января 2006, 18:41

#13

Interitus:
LIKE '%слово%' по текстовому полю - крайне медленно в нем выполняется. То есть даже гораздо медленнее чем должно выполняться.

конечно, это по сути идет какой-то примитивный алгоритм поиска подстроки в строке, скорее всего просто последовательный перебор, для обработки больших объемов данных вряд ли подойдет, тут нужна продуманная организация БД и алгоритмов работы поиска

хотя как я говорил, даже если поиск будет занимать до 2-3 минут, это не критично в данном случае, так что щас провожу опыты (правда сервер будет жалко... хотя он то все равно не мой 😂 )

CMS для потрала с Резкий всплеск прямых заходов. include в php большого

64

Sadie

20 января 2006, 18:46

#14

<BOBER-3>:
вот только как преобразовывать слово в базовые формы пока не ясно

Кхм! Я бы для начала повспоминала как выглядит учебник русского языка. Посмотреть там спряжения и падежи глаголов, а также изменения существительных. Мне кажется, там это должно быть как-то формализовано.

Новости без комплексов (http://www.kompleksov.net/) | ЖЖ (http://sad-sadie.livejournal.com/)

71

<BOBER-3>

20 января 2006, 18:57

#15

Sadie:
Кхм! Я бы для начала повспоминала как выглядит учебник русского языка. Посмотреть там спряжения и падежи глаголов, а также изменения существительных. Мне кажется, там это должно быть как-то формализовано.

я с Киева, русский в школе не учили, какой учебник вспоминать?

😂

походу придется учить... просто может готовый алгоритм какой имеется? :)

это, я тут только что sms набирал сестренке, у меня в телефоне какая-то функция есть, кароче не по символам набирать (на каждой же кнопке по 3-4 буквы), а сразу жмешь, а он там сам как-то анализирует и собирает слова (ну я думаю вы поняли о чем я?) ну ошибается иногда, редко... не критично... это же явно какой-то алгоритм там анализирует последовательность возможных букв и подставляет наиболее распространенный вариант, никто не знает как это реализовано?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

60

rst

20 января 2006, 19:02

#16

<BOBER-3>:
я с Киева, русский в школе не учили, какой учебник вспоминать?
😂
походу придется учить... просто может готовый алгоритм какой имеется? :)
это, я тут только что sms набирал сестренке, у меня в телефоне какая-то функция есть, кароче не по символам набирать (на каждой же кнопке по 3-4 буквы), а сразу жмешь, а он там сам как-то анализирует и собирает слова (ну я думаю вы поняли о чем я?) ну ошибается иногда, редко... не критично... это же явно какой-то алгоритм там анализирует последовательность возможных букв и подставляет наиболее распространенный вариант, никто не знает как это реализовано?

тут ищи. там много подобных программ есть.

http://www.rvb.ru/soft/catalogue/c04.html

www.captchabot.com (www.captchabot.com) - распознавание captcha (http://www.captchabot.com)

71

<BOBER-3>

20 января 2006, 19:06

#17

rst, о, спасибо, полезно будет :) сейщас поизучаем...

а вообще такие линки на этом форуме лучше не светить, думаю ясно почему? :D

R

60

rst

20 января 2006, 19:38

#18

<BOBER-3>:
rst, о, спасибо, полезно будет :) сейщас поизучаем...
а вообще такие линки на этом форуме лучше не светить, думаю ясно почему? :D

да ну. ничего предосудительного не вижу.

Это найти при желании в гугле за пару минут можно.

71

<BOBER-3>

20 января 2006, 19:51

#19

тэкс... по поводу селекта, сделал бд примерно на 10% от начальной той, что будет там, поиск по одной фразе занимал нереально долго даже из учета не критичности в 1-2 минуты :)

идем дальше...

R

60

rst

20 января 2006, 20:45

#20

попробуй "оглавление" чтоли сделать.

1) Имеешь таблиц у : слово => документы, в которых встречается

2) режешь статьи на слова (опять же содержащие смысл + в базовой форме), и ставишь соответствующие ссылки в таблице.

тогда никаких like не нужно.

при запросе - определяешь наборы документов, где встречаются слова из запроса.

после этого выделяешь документы, где встречаются все слова запроса.

Яндекс перестанет поддерживать редко Методика определения отключения ссылочного Яндекс.Директ: уточнять ключевые фразы

Open AI тестирует память для ChatGPT

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Кто-то разбирается в поисковых алгоритмах? Нужна помощь.