Отечественный поисковый движок

v_ovan
На сайте с 14.05.2008
Offline
165
#41
Bazist:


Если сравнивать выдачу с другими поисковыми системами, например, Гугл, то получается у поисковика выдача более социально ориентирована. Нельзя сказать что эта выдача лучше или хуже чем у гугла, по сути она просто другая. Гугл старается сделать более "энциклопедическую выдачу". Например, по запросу "золото" пытается вернуть информацию о драгоценном метале и его химическом составе. У меня выдача, более социально ориентирована. Понятие золото, достаточно атрофировано в социальных сетях и подвязано чаще всего к золотовалютным резервам стран, поэтому движок делает релевантными страницы которые хорошо рассказывают о золотовалютных резервах других стран.

Если сделать запросы по технологиям, то хороший рейтинг получают страницы которые "перемывают косточки" технологиям. Например по запросу "винда" поисковик выдает первыми страницами, где говорят о зависаниях, перезагрузках, синих экранах, вирусах и прочьих особенностях технологии. Тогда как Гугл просто пытается рассказать что такое Виндовз в энциклопедической манере.

Кстати да, неплохо сделать, чтобы пользователь мог выбирать что он ищет:

энциклопедические данные, коммерческую информацию, интернет-мемы и т.д.

Потому что однозначно решить какой сайт важней и какая страница максимально релевантна запросу без этого нельзя.

Горящие туры (https://teplo.ru/)
B
На сайте с 15.01.2014
Offline
43
#42
Froolex:
Bazist, Попробуйте посмотреть в сторону гео привязки, тематики, социальных факторов (лайки, репосты). Так же рекомендую сделать вам внутренний каталог сайтов, чтобы вы могли присваивать регион, тематику, соц. страницы ресурса, язык, описание и т.п...

Это все ручная работа и "костыли" с которыми работают современные ПС. Чтобы внедрить такие вещи, нужно задействовать крупный штат сотрудников. Я пока что пытаюсь найти красивый, элегантный и главное автоматический алгоритм.

Пока что вижу что тестируемый алгоритм:

1. Решает проблему стемминга, синонимов и др. При наличие достаточно большой БД, алгоритм четко выбирает асоциативные связи между терминами, проводит параллели.

Например если указать в поисковом запросе "Путин" то и попадут все страинцы с аналогичными словами: Путину, Путина, Путином, ВВП, Владимир Владимирович и тд. И это делается в автоматическом режиме, на базе сформированых ассоциаций.

Тоесть если мы проиндексируем корейский форум, то все тоже можно будет сделать в терминах корейского языка. Провести ассоциативные связи.

2. Решает проблему случайных попаданий. Например если слово "Гольф" чаще всего упоминается в контексте авто Фольцваген, то страницы где "Гольф" упоминается как спорт будут отсеяны.

Пока что я вижу что алгоритм может быть не плох, если нужно сделать локальный поиск по сайту.

При условии, что на этом сайте есть достаточное количество страниц, чтобы сформировать устойчивую базу знаний асоциаций. Думается в этом направлении можно еще много чего интересного раскопать.

---------- Добавлено 23.07.2014 в 11:25 ----------

v_ovan:
Кстати да, неплохо сделать, чтобы пользователь мог выбирать что он ищет:
энциклопедические данные, коммерческую информацию, интернет-мемы и т.д.
Потому что однозначно решить какой сайт важней и какая страница максимально релевантна запросу без этого нельзя.

Хочу реализовать в этом направлении поиск по словарям.

Тоесть пользователь в качестве поисковой строки задает не фразу, а словарь.

И дальше выбирается наиболее соответствующие этому словарю страницы.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня
B
На сайте с 15.01.2014
Offline
43
#43
Вафелька:
Он еще работает?

Эх, посидел вечер, както прикрутил и запустил ☝

http://booben.com

Пока что подключена только база Хабра (больше 200 тыс статей).

---------- Добавлено 13.08.2014 в 02:58 ----------

Ну и можно сравнить выдачу для типичного запроса.

Например, ищем слово беспилотник.

Гугл выдача:

https://www.google.com.ua/#q=site:habrahabr.ru+%D0%B1%D0%B5%D1%81%D0%BF%D0%B8%D0%BB%D0%BE%D1%82%D0%BD%D0%B8%D0%BA

Бубен выдача:

http://booben.com?q=беспилотник

B
На сайте с 15.01.2014
Offline
43
#44

Тестирую потихоньку поиск. Конечно большой процент муссорных или неочевидных результатов. Частично сказывается маленькая база "знаний", алгоритму тяжело проассоциировать термин, большой процент случайных вхождений.

И частично, нужно тюнить алгоритм. В целом, если термин хорошо освящен на Хабре, то результаты вполне себе приличные.

Например поисковое слово доска

http://booben.com?q=доска

Выдача топ 5 статей:

Идеальная маркерная доска

Бюджетная маркерная доска

Меловой период

Компьютерный класс в Грузии

Интеллектуальная доска SmartBoard 690

Гугл выдача:

Маркерная доска своими руками / Хабрахабр

Бюджетная маркерная доска / Хабрахабр

Идеальная маркерная доска / Хабрахабр

Интерактивные доски. Зачем они и для кого? / Хабрахабр

Бюджетная доска для писания маркером (Glass ...

Misha0o
На сайте с 12.08.2012
Offline
74
#45

Слежу за проектом, надеюсь не загнётся.

Может получиться что-то действительно достойное.

B
На сайте с 15.01.2014
Offline
43
#46

Кстате задержка при поиске в несколько секунд, связана с пересчетом ассоциаций.

Чтобы пересчитать связи между словами всего лишь для одного запроса, нужно выполнить свыше 1 млн простых поисковых запросов.

Простой запрос, без выдачи ассоциативного ряда и релеванта результатов выполняется за микросекунды.

Чтобы пересчитывать ассоциации также нужно всю базу держать в памяти.

Здесь пригодился ужатый формат самого индексного файла.

Суммарный размер индекса занимает всего лишь 1-3% от размеров проиндексированого контента.

B
На сайте с 15.01.2014
Offline
43
#47

Прикрутил динамическую подгрузку сниппетов.

http://booben.com/?q=стив

Завтра пейджинг постараюсь прикрутить и расширить базу до примерно 1.5 млн страниц.

---------- Добавлено 15.08.2014 в 00:55 ----------

Способность строить ассоциативные ряды, один из фундаментальных признаков интеллекта.

Сравните выдачу теплого лампового поиска на запрос кот

http://booben.com/?q=кот

Топ тем:

Лучший друг айтишника / Хабрахабр

Гуманная и эффективная мышеловка / Хабрахабр

Коты и счастье / Хабрахабр

И холодный расчет гугла по заголовкам.

https://www.google.com.ua/#q=site:habrahabr.ru+%D0%BA%D0%BE%D1%82

Топ тем:

Аналитика. Кот. Пятница - Хабрахабр

Кардиостимулятор для кота Шредингера / Хабрахабр

«Умный» ошейник превратит вашего кота в Wi-Fi ...

Причина проста. Люди в сети (в частности на Хабре) ассоциируют кота с позитивными эмоциями, потому и выдача позитивных статей :)

D
На сайте с 04.11.2009
Offline
127
#48

чето сайт не работает((

opticosblog.ru - мой блог о интернет-маркетинге и SEO (http://opticosblog.ru)
B
На сайте с 15.01.2014
Offline
43
#49

Заработал.

Иногда могут быть перебои, поскольку сервер это старенький ноут который стоит дома на кухне )

D
На сайте с 04.11.2009
Offline
127
#50
Bazist:
Заработал.
Иногда могут быть перебои, поскольку сервер это старенький ноут который стоит дома на кухне )

иногда мне кажется, что яндекс - это тоже поиск на стареньком ноуте:)

---------- Добавлено 15.08.2014 в 11:24 ----------

ну вот опять завис.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий