Отечественный поисковый движок

B
На сайте с 15.01.2014
Offline
43
#51

Блин, какието траблы с домашним интернетом.

Позвонил жене, попросил перегрузить роутер, но похоже не помогло.

Ладно, тогда вечером скорей всего заработает.

Вечером же, увеличу размер базы до трех сайтов. Будет интересней поиск.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня
D
На сайте с 04.11.2009
Offline
127
#52

что заметил - поиск чисто информационный. на выборке хабра вроде бы ищет неплохо. но там и статьи подобраны уже человеческие. что будет в реальном мире не ясно с кучей дорвеев и прочего хлама.

opticosblog.ru - мой блог о интернет-маркетинге и SEO (http://opticosblog.ru)
B
На сайте с 15.01.2014
Offline
43
#53
dmkolesnikov:
что заметил - поиск чисто информационный. на выборке хабра вроде бы ищет неплохо. но там и статьи подобраны уже человеческие. что будет в реальном мире не ясно с кучей дорвеев и прочего хлама.

Физики хорошо знают что законы микромира и макромира практически диаметрально противоположны.

Тоже справедливо и для информационного мира. На маленьких обьемах данных большую роль играют разные флуктуации с хламом, случайными данными, дорвеями и прочьим. На больших обьемах данных их влияние постепенно уменьшается и с гигабайт "муссора" удается выцедить вполне осмысленные семантические цепочки и правила языка.

Огромные обьемы информации это ключик к ИИ и про это наверняка хорошо знает Гугл. Именно поэтому у него такая тяга проиндексировать всё, до чего только можно дотянутся. На больших обьемах данных и "мартышку можно научить читать".

Чемто похожим и я занимаюсь. Имея достаточно крупные обьемы данных, пытаюсь "выудить рыбку в мутной воде" :)

D
На сайте с 04.11.2009
Offline
127
#54

Ну что же, удачи Вам:) Будем продолжать следить за Вашим проектом:) На самом деле - очень интересно. Первая действительно новая поисковая технология за долгие годы. Можно у Вас там местечко забить в топ-10 по коммерческим запросам?)))

---------- Добавлено 15.08.2014 в 14:01 ----------

И, Вы там сразу говорите, куда нужно идти ссылки покупать, чтобы раскручиваться у вас в поисковике)))

B
На сайте с 15.01.2014
Offline
43
#55
dmkolesnikov:
Ну что же, удачи Вам:)

Спасибо :)

---------- Добавлено 17.08.2014 в 00:31 ----------

В пятницу слетела ОСь без возможности восстановить, пришлось все переустанавливать с чистого листа. Надеюсь это не связано с железом. Всетаки на долю старенького винчестера пришлась переиндексация не одного терабайта информации, что не добавило ему здоровья.

После присоединил индексы на еще два сайта, итого индекс покрывает примерно 1.5 млн страниц текста с таких ресурсов как хабр, доу и скуль ру. Соответсвенно увеличилась задержка при поиске, сейчас она состатвляет примерно 10-15 сек. Напомню что в эти десять секунд процессору приходится делать миллионы простых подзапросов пересчитывая огромный граф ассоциаций и связей между словами. После этого результат кешируется и на следующем запросе отдается моментально. Другого способа ускорить этот процесс я пока что не вижу.

---------- Добавлено 17.08.2014 в 01:09 ----------

Теперь немного с Вашего позволения пофилософствую.

Всё я както пытаюсь равнятся на гугл или яндекс, но пока что в результатах такая пропасть что не пройти и не проехать. Похоже что в гугле или яндексе топы просто набили ручками. И с этой точки зрения гугл или яндекс имеет наиболее полезную выдачу. Это как ассистент.

Вводишь например слово "шерсть". Первые несколько ссылок на вики, потом парочка игр, потом пошли трикотажные фабрики. Гугл какбы говорит тебе:

- Ты спросил про шерсть ? Я знаю что такое шерсть, потому что я очень умный. Вот тебе ссылка на энциклопедию раз, два, три, четыре, пять, шесть. А вот есть такая трикотажная фабрика. И вообще тебе купить или продать ?

Очень хорошо, гуд джаб мистер Гугл. Спасибо что ответил что такое шерсть, как будто до этого я не знал, что пришлось целых шесть ссылок отдать в топе энциклопедии.

И вот ты сидишь, смотришь на комок шерсти на полу и думаешь. А что должен выдавать поисковик на слово "шерсть" ? Перезадал этот вопросс Бубну. Бубен чото там подшаманил, посчитал те самые 1.5 млн страниц трёпа на трёх форумах и какбы говорит тебе:

- Эй, братушка ! Без понятия что там написано в вики, по этому делу у меня есть большой брат. Но я тебя прекрасно понимаю ! В сети шерсть ассоциируют с кошечками и собачками. Шерсть это то с чем борятся их хозяйки и вообщем вот тебе топ, где это всё обсуждают.

Вот тут и мысли. Каким должен быть поиск ?

"Примерным отличником на пятёрочку с вики" или

"Ты хочешь поговорить об этом ?"

Две коррдинально противоположные стратегии в поиске. Гугл можно понять. Кому отдать топ как не вики если у тебя в результатах миллионы страниц. А с другой стороны, где душевность в поиске ? Где понимание ? Вообщем над этим всем мне еще стоит подумать и поискать свою нишу. 🍿

B
На сайте с 15.01.2014
Offline
43
#56

PS
На сайте с 04.06.2014
Offline
1
#57

для того чтобы этим заниматься найдите инвестора,а дальше уже видно будет.

D
На сайте с 04.11.2009
Offline
127
#58

по-моему, человек и без инвестора уже неплохой инструмент сделал. жаль что не на весь рунет распространяется. инвестор нужен теперь только чтобы купить оборудование/дать рекламу по телеку.

B
На сайте с 15.01.2014
Offline
43
#59

1. Добавил в индекс еще один сайт. Тем самым разбавив айтишную тематику автотематикой. Теперь есть смысл поискать что-то и о машинах.

2. Оптимизировал алгоритм поиска ассоциативных связей, скорость поиска возросла в несколько раз.

Типичный запрос: http://booben.com/?q=камаз

B
На сайте с 15.01.2014
Offline
43
#60

Подскажите, хочу добавить новую функциональность - популярность слова/термина на определенном сайте в разрезе времени. Понимаю что алгоритм простой и наверняка где-то реализован.

Чтото похожее Гугл-трендс, но насколько я понял он работает анализируя сами запросы, а не контент. Кто-то сталкивался с такой функциональностью ?

---------- Добавлено 19.08.2014 в 12:52 ----------

Забыл сказать. По фразам пока нормально не ищет, есть баги.

Там нужно отдельно чтото придумать, поскольку по сути это обработчик естественного языка.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий