Ассоциативный поиск: Тестируем поиск по фразе

B

43

Bazist

2 июня 2015, 15:39

13298

Начало темы было здесь: /ru/forum/832998

При попытке добавить сообщение, пишет что эта тема "слишком старая",

поэтому создал тему продолжение.

Итак, готова версия движка на основе ассоциативного поиска,

которая подымает ассоциации не только на основе единичных слов, но и на основе фраз. :idea:

Напомню, что в некоторых тестах, движок зарекомендовал себя как более интеллектуальный, не уступающий алгоритмам гугла в некоторых кейсах:

http://blog.pikosec.com/?p=72

(по-моему субьективному мнению, естественно)

Таким образом это уже в какойто мере полноценный движок, с достаточно сильными релевантными алгоритмами. Он еще плохо оттесан, но он уже работает:

http://booben.com/?q=%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D0%BD%D0%B0%D0%B2%D1%82&s=sql.ru

Следующий этап, тюнинг движка и, возможно, движение в сторону селекторных запросов, запросов с выделением фактов из страниц и предоставления их в табличном виде.

PS: Прошу прощение у всех кто мне писал в личку или на мыло, освободился и добрался до проекта только сейчас.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня

[Удален]

2 июня 2015, 15:50

#1

Bazist, http://booben.com/?q=%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%20%D0%B4%D0%BE%D0%BC%D0%B0&s=searchengines.guru :)

B

43

Bazist

2 июня 2015, 16:03

#2

burunduk:
Bazist, http://booben.com/?q=%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%20%D0%B4%D0%BE%D0%BC%D0%B0&s=searchengines.guru :)

Да, тут нужно учитывать, что в отличии от разных гуглов, у которых на "работа дома", "куплю машину" и тд уже захаркоджено 1500 позиций проплаченого топа - у меня это еще чистый незаангажированный поиск. Возвращает результаты без каких либо проплат, как есть, на основе конкурирующей модели ассоциативных связей. ☝

Продается сайт Google не откажется от Проблемы с продвижением в

B

43

Bazist

2 июня 2015, 16:04

#3

Ну вот чтото типа такого 😂

jpg comics_dikaprio_orig_1346255182.jpg

ХЧ

26

ХорошийЧеловек

2 июня 2015, 16:41

#4

Bazist:
Начало темы было здесь: /ru/forum/832998
При попытке добавить сообщение, пишет что эта тема "слишком старая",
поэтому создал тему продолжение.

Итак, готова версия движка на основе ассоциативного поиска,
которая подымает ассоциации не только на основе единичных слов, но и на основе фраз. ☝

Напомню, что в некоторых тестах, движок зарекомендовал себя как более интеллектуальный, не уступающий алгоритмам гугла в некоторых кейсах:
http://blog.pikosec.com/?p=72
(по-моему субьективному мнению, естественно)

Таким образом это уже в какойто мере полноценный движок, с достаточно сильными релевантными алгоритмами. Он еще плохо оттесан, но он уже работает:

http://booben.com/?q=%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D0%BD%D0%B0%D0%B2%D1%82&s=sql.ru

Следующий этап, тюнинг движка и, возможно, движение в сторону селекторных запросов, запросов с выделением фактов из страниц и предоставления их в табличном виде.

PS: Прошу прощение у всех кто мне писал в личку или на мыло, освободился и добрался до проекта только сейчас.

Ветку не читал,

Давно уже есть вот такое опенсоурсное решение:

http://www.opensearchserver.com/

Без суппорта можно просто скачать, изучать и использовать.

Можно под себя подделать формулу ранжирования.

Данный проект изучали?

B

43

Bazist

2 июня 2015, 16:54

#5

ХорошийЧеловек:
Ветку не читал,

Давно уже есть вот такое опенсоурсное решение:
http://www.opensearchserver.com/

Без суппорта можно просто скачать, изучать и использовать.
Можно под себя подделать формулу ранжирования.

Данный проект изучали?

Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?

ХЧ

26

ХорошийЧеловек

2 июня 2015, 17:09

#6

Bazist:
Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?

Вот так глубоко не капал. Поэтому и спрашиваю.

Еще такой вопрос:

Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?

B

43

Bazist

2 июня 2015, 18:19

#7

ХорошийЧеловек:

Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?

/ru/forum/832998

ХЧ

26

ХорошийЧеловек

3 июня 2015, 06:25

#8

Bazist:
/ru/forum/832998

Частично просмотрел. Судя по всему проект делаете с нуля.

1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?

2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?

3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?

4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?

Многосайтовая Zebrum CMS Накидайте актуальные CMS без Вопросы по организации рабочей

B

43

Bazist

3 июня 2015, 09:20

#9

ХорошийЧеловек:
Частично просмотрел. Судя по всему проект делаете с нуля.

1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?

2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?

Используется Trie и NoSql база данных собственной разработки.

Она значительно быстрее работает чем существующие решения.

Например стандартный std::map из С++ построенный на красно черных деревьях превосходит в среднем по скорости в 5 раз. Достаточно легко оперирует таблицами в которых десятки и даже сотни миллионов ключей ( что важно для поисковиков )

Подробней еще здесь: http://blog.pikosec.com/?p=55

ХорошийЧеловек:

3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?

Индекс делится на две части. На тот что лежит на диске и тот что в ОЗУ. Новые страницы попадают в ОЗУ. Когда лимит выделенный на ОЗУ превышен, часть индекса из ОЗУ мержится с дисковым индексом и ОЗУ очищается.

ХорошийЧеловек:

4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?

Благодаря хорошей степени сжатия, индекс часто удается весь вытянуть в ОЗУ. Например расчет такой. На 56 ГБ проиндексированого контента индекс в районе 500-600 мб. На рабочей машинке сейчас 8 ГБ ОЗУ. Следовательно в ОЗУ можно разместить индекс сразу на несколько крупных ресурсов, вроде серчэнжин. Когда данные в ОЗУ, вопрос с фрагментацией уже не актуален.

Отечественный поисковый движок Букварикс: бесплатная программа для Выбрать виртуальный сервер

S

404

Scaryer

3 июня 2015, 11:25

#10

"ваз в кредит" лучше искать на серче или на хабре?

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи