Интересует локальный поисковой движек

mnt
На сайте с 11.11.2002
Offline
107
mnt
1816

можно платный.

SE должен обладать следующими характеристиками:

1. поддерживать основные операторы поиска (например как у Yandex и синонимы ~ как у google)

2. уметь искать слова с ошибками.

3. поддерживать морфологию русского и английских языков.

4. поддерживать выборочный "ассоциативный" поиск. (например Sony и Сони, Toyota и Тойота).

дорого куплю ссылки с хороших жирных русскоязычных авто сайтов.
[Удален]
#1
Как писал mnt
можно платный.
SE должен обладать следующими характеристиками:
1. поддерживать основные операторы поиска (например как у Yandex и синонимы ~ как у google)
2. уметь искать слова с ошибками.
3. поддерживать морфологию русского и английских языков.
4. поддерживать выборочный "ассоциативный" поиск. (например Sony и Сони, Toyota и Тойота).

Я сейчас тоже этим заморачиваюсь...

Кто что думает вот по этому: http://www.lexa.ru/articles/htdig.html ?

VT
На сайте с 27.01.2001
Offline
130
#2
можно платный.
SE должен обладать следующими характеристиками

А обсуждения здесь или здесь никак не помогут определиться?

Ashmanov
На сайте с 21.11.2000
Offline
66
#3

Зачем нужно искать слова с ошибками, объясните, пожалуйста?

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
mnt
На сайте с 11.11.2002
Offline
107
mnt
#4
Как писал Ashmanov
Зачем нужно искать слова с ошибками, объясните, пожалуйста?

определенный процент людей пропускает буквы в словах, пишЕт с ошибками, иногда не указывает пробелымежду словами (потому как торопится), некоторые забывают переключить раскладку клавиатуры на соответствующий zpsr.

Хотелось бы посмотреть на движёк, который всё это переваривает.

VT
На сайте с 27.01.2001
Offline
130
#5
Хотелось бы посмотреть на движёк, который всё это переваривает.

Вообще на самом деле смысла в этом немного. Если пользователь ввел что-то не так, то по отсутствию результатов он сам повторит уже правильный запрос.

А автоматические подсказчики иногда бывают неправы, к тому же это так, игрушки.

mnt
На сайте с 11.11.2002
Offline
107
mnt
#6
Как писал Vyacheslav Tikhonov

Вообще на самом деле смысла в этом немного. Если пользователь ввел что-то не так, то по отсутствию результатов он сам повторит уже правильный запрос.
А автоматические подсказчики иногда бывают неправы, к тому же это так, игрушки.

Вы не объективны.

Всё зависит от области приминения такого поискового движка,

например поиск по объявлениям: если объявлений очень много, то соотвественно ошибок в них очень много, потому что все объявления пишутся разными людьми.

К тому же зачем людей заставлять по 20 раз пытаться найти какую-то информацию, если это запросто может сделать ПС.

VT
На сайте с 27.01.2001
Offline
130
#7
Всё зависит от области приминения такого поискового движка

По сути согласен, но здесь должна быть уверенность, что овчинка стоит выделки и подобный движок действительно нужен. Да и к тому же, людей часто раздражает, когда им подсовывают не совсем то, что они хотели. Например, 20 раз вместо 20 роз :)

mnt
На сайте с 11.11.2002
Offline
107
mnt
#8
Как писал Vyacheslav Tikhonov

По сути согласен, но здесь должна быть уверенность, что овчинка стоит выделки и подобный движок действительно нужен. Да и к тому же, людей часто раздражает, когда им подсовывают не совсем то, что они хотели. Например, 20 раз вместо 20 роз :)

вот если бы этот движек еще б понимал, что есть рОзы и рАзы и не подсовывал бы - то и другое, куда не поподя - было бы совсем замечательно.

🍻

Ashmanov
На сайте с 21.11.2000
Offline
66
#9
Как писал mnt

например поиск по объявлениям: если объявлений очень много, то соотвественно ошибок в них очень много, потому что все объявления пишутся разными людьми.

Таким образом, вы говорите не об ошибках вввода при задании поискового запроса, а об опечатках в тексте. Это разные вещи.


К тому же зачем людей заставлять по 20 раз пытаться найти какую-то информацию, если это запросто может сделать ПС.

Запросто - может, хорошо - не может. Проделайте простой следственный эксперимент: наберите в Microsoft Word слово с опечаткой и вызовите проверку правописания. Посмотрите варианты замены - хотите ли вы, чтобы искался весь этот мусор, слова, совершенно не связанные с исходным?

кхня -> кухня, коня;

внна -> ванна, вона, вена, вина, анна, инна,...

ваная -> ванная, важная, рваная, важная,...

и пр.

И не говорите, что нужно "просто" взять первое слово. Тут ещё повезло, что правильный вариант - первый. Это далеко не всегда так:

зявка - звяка, зевка, заявка, зябка,...;

верхнй - верхней, верхний;

западый - западай, западный.

Это нужно передавать на поиск?

А между прочим, в ОРФО в составе Word имеет очень сложный механизм подбора замен, который примерно раз в десять больше вариантов отбрасывает (на основе триграммного анализа и пр.). Я сильно сомневаюсь, что можно алгоритмически подобрать точный вариант намного лучше, чем ОРФО.

А вот вручную подобрать таблицу замен для поисковика можно.

mnt
На сайте с 11.11.2002
Offline
107
mnt
#10
Как писал Ashmanov

Таким образом, вы говорите не об ошибках вввода при задании поискового запроса, а об опечатках в тексте. Это разные вещи.



Запросто - может, хорошо - не может. Проделайте простой следственный эксперимент: наберите в Microsoft Word слово с опечаткой и вызовите проверку правописания. Посмотрите варианты замены - хотите ли вы, чтобы искался весь этот мусор, слова, совершенно не связанные с исходным?
кхня -> кухня, коня;
внна -> ванна, вона, вена, вина, анна, инна,...
ваная -> ванная, важная, рваная, важная,...
и пр.
И не говорите, что нужно "просто" взять первое слово. Тут ещё повезло, что правильный вариант - первый. Это далеко не всегда так:
зявка - звяка, зевка, заявка, зябка,...;
верхнй - верхней, верхний;
западый - западай, западный.

Это нужно передавать на поиск?

А между прочим, в ОРФО в составе Word имеет очень сложный механизм подбора замен, который примерно раз в десять больше вариантов отбрасывает (на основе триграммного анализа и пр.). Я сильно сомневаюсь, что можно алгоритмически подобрать точный вариант намного лучше, чем ОРФО.
А вот вручную подобрать таблицу замен для поисковика можно.

Да, Вы правы, но имею ввиду ошибки, которые можно 100% интерпретировать как ошибки в соответствующей предметной области.

например, если объявления касаются продажи автомобилей, то слово `Тайота` или `Таёта` можно с большой долей вероятности интерпретировать как 'Тойота'. (`продаю`,`прАдаю`,`прАдОю` - тоже самое)

т.е для достаточно узкой предметной области, думаю, можно составить соответствующие словари. может такое кто-нибудь делал? 🚬

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий