Ассоциативный поиск: Тестируем поиск по фразе

12 3
B
На сайте с 15.01.2014
Offline
43
12964

Начало темы было здесь: /ru/forum/832998

При попытке добавить сообщение, пишет что эта тема "слишком старая",

поэтому создал тему продолжение.

Итак, готова версия движка на основе ассоциативного поиска,

которая подымает ассоциации не только на основе единичных слов, но и на основе фраз. :idea:

Напомню, что в некоторых тестах, движок зарекомендовал себя как более интеллектуальный, не уступающий алгоритмам гугла в некоторых кейсах:

http://blog.pikosec.com/?p=72

(по-моему субьективному мнению, естественно)

Таким образом это уже в какойто мере полноценный движок, с достаточно сильными релевантными алгоритмами. Он еще плохо оттесан, но он уже работает:

http://booben.com/?q=%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D0%BD%D0%B0%D0%B2%D1%82&s=sql.ru

Следующий этап, тюнинг движка и, возможно, движение в сторону селекторных запросов, запросов с выделением фактов из страниц и предоставления их в табличном виде.

PS: Прошу прощение у всех кто мне писал в личку или на мыло, освободился и добрался до проекта только сейчас.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня
B
На сайте с 15.01.2014
Offline
43
#2

Да, тут нужно учитывать, что в отличии от разных гуглов, у которых на "работа дома", "куплю машину" и тд уже захаркоджено 1500 позиций проплаченого топа - у меня это еще чистый незаангажированный поиск. Возвращает результаты без каких либо проплат, как есть, на основе конкурирующей модели ассоциативных связей. ☝

B
На сайте с 15.01.2014
Offline
43
#3

Ну вот чтото типа такого 😂

jpg comics_dikaprio_orig_1346255182.jpg
ХЧ
На сайте с 27.06.2014
Offline
26
#4
Bazist:
Начало темы было здесь: /ru/forum/832998
При попытке добавить сообщение, пишет что эта тема "слишком старая",
поэтому создал тему продолжение.

Итак, готова версия движка на основе ассоциативного поиска,
которая подымает ассоциации не только на основе единичных слов, но и на основе фраз. ☝

Напомню, что в некоторых тестах, движок зарекомендовал себя как более интеллектуальный, не уступающий алгоритмам гугла в некоторых кейсах:
http://blog.pikosec.com/?p=72
(по-моему субьективному мнению, естественно)

Таким образом это уже в какойто мере полноценный движок, с достаточно сильными релевантными алгоритмами. Он еще плохо оттесан, но он уже работает:

http://booben.com/?q=%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D0%BD%D0%B0%D0%B2%D1%82&s=sql.ru

Следующий этап, тюнинг движка и, возможно, движение в сторону селекторных запросов, запросов с выделением фактов из страниц и предоставления их в табличном виде.

PS: Прошу прощение у всех кто мне писал в личку или на мыло, освободился и добрался до проекта только сейчас.

Ветку не читал,

Давно уже есть вот такое опенсоурсное решение:

http://www.opensearchserver.com/

Без суппорта можно просто скачать, изучать и использовать.

Можно под себя подделать формулу ранжирования.

Данный проект изучали?

B
На сайте с 15.01.2014
Offline
43
#5
ХорошийЧеловек:
Ветку не читал,

Давно уже есть вот такое опенсоурсное решение:
http://www.opensearchserver.com/

Без суппорта можно просто скачать, изучать и использовать.
Можно под себя подделать формулу ранжирования.

Данный проект изучали?

Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?

ХЧ
На сайте с 27.06.2014
Offline
26
#6
Bazist:
Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?

Вот так глубоко не капал. Поэтому и спрашиваю.

Еще такой вопрос:

Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?

B
На сайте с 15.01.2014
Offline
43
#7
ХорошийЧеловек:

Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?

/ru/forum/832998

ХЧ
На сайте с 27.06.2014
Offline
26
#8

Частично просмотрел. Судя по всему проект делаете с нуля.

1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?

2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?

3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?

4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?

B
На сайте с 15.01.2014
Offline
43
#9
ХорошийЧеловек:
Частично просмотрел. Судя по всему проект делаете с нуля.

1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?

2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?

Используется Trie и NoSql база данных собственной разработки.

Она значительно быстрее работает чем существующие решения.

Например стандартный std::map из С++ построенный на красно черных деревьях превосходит в среднем по скорости в 5 раз. Достаточно легко оперирует таблицами в которых десятки и даже сотни миллионов ключей ( что важно для поисковиков )

Подробней еще здесь: http://blog.pikosec.com/?p=55

ХорошийЧеловек:

3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?

Индекс делится на две части. На тот что лежит на диске и тот что в ОЗУ. Новые страницы попадают в ОЗУ. Когда лимит выделенный на ОЗУ превышен, часть индекса из ОЗУ мержится с дисковым индексом и ОЗУ очищается.

ХорошийЧеловек:

4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?

Благодаря хорошей степени сжатия, индекс часто удается весь вытянуть в ОЗУ. Например расчет такой. На 56 ГБ проиндексированого контента индекс в районе 500-600 мб. На рабочей машинке сейчас 8 ГБ ОЗУ. Следовательно в ОЗУ можно разместить индекс сразу на несколько крупных ресурсов, вроде серчэнжин. Когда данные в ОЗУ, вопрос с фрагментацией уже не актуален.

S
На сайте с 29.01.2006
Offline
404
#10

"ваз в кредит" лучше искать на серче или на хабре?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий