Отечественный поисковый движок

B
На сайте с 15.01.2014
Offline
43
31475

Добрый День,

Последние пару лет я занимаюсь созданием поискового движка полнотекстового поиска.

Движок пишется с нуля, на "голом" Си. Первая версия по функциональности достаточно примитивна - обычный инвертированый индекс. В базовом варианте страницы не ранжирует, расстояние между словами не учитывает.

Зачем писать еще один ?

Как обычно, быстрее индексация (60-120мб\сек), компактней индекс (сжатие до 99%), выше скорость поиска (до 1млн простых запросов в секунду).

Что сделано на сегодня, проиндексировано

dou.ua (0.5гб html текста)

Habrahabr.ru (15гб html текста),

Sql.ru (56гб html текста),

Lib.rus.ec (250гб текста),

Всего контента: 320гб

Результирующий индекс: ~4 гб

Вообщем вопрос такой. Я хотел бы этот движок развить в современную поисковую систему, с каки-нибудь интересными фичами. Вообщем мне нужны советы, как это можно сделать, с чего начать, какие фичи можно реализовать для создания уникального движка, где искать инвесторов ?

Ведь потенциал у движка есть стать именно поисковой системой, по моим чисто теоретическим расчетам на обычный 1-2ТБ винт вместится индекс на весь текстовый контент рунета.

Из фич для просто инвертированого индекса, пришла например такая идея.

Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов).

Такое гдето уже реализовано ? Стоит ли за это браться ?

Вообщем хотелось бы просто пообщатся с толковыми людьми на эту тему.

Спасибо за любые ответы !

ЗЫ:

Также открыт для переписки support[сбк]pikosec.com

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня
TC
На сайте с 13.05.2013
Offline
90
#1

начинайте сразу с поисков инвестора. Только вот эти ваши "я молодец, но что дальше" разверните в нормальный документ.

bott
На сайте с 07.12.2012
Offline
46
#2

The_Curious, да что там разворачивать то? ТС же просит накидать ему функционал.

Нужна работа или сотрудники? Биржа фриланса (http://www.ichurabotu.ru/) - ichurabotu.ru.
TC
На сайте с 13.05.2013
Offline
90
#3

Значит он не найдет инвестора :) И Яндекс не будет попячен. За это надо выпить. Не чокаясь.

B
На сайте с 15.01.2014
Offline
43
#4

Спасибо за ответы.

Все правильно, меня сейчас больше интересует "правильное" расширение функциональности.

Просто занять нишу гугла или яндекса, такой цели не ставится, эти поисковики на мой взгляд написаны хорошо и улучшить с точки зрения пользователя врядли чтото удасться (Хотя может у Вас другие мысли ?).

В качестве пилотной идеи меня больше сейчас интересует реализация семантического поиска, или поиска по словарям. Гугление ничего конкретного пока не дало, но с практической точки зрения, наверняка работы в этой области ведутся.

Bazist:

Из фич для просто инвертированого индекса, пришла например такая идея.
Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов).
Такое гдето уже реализовано ? Стоит ли за это браться ?
MB
На сайте с 28.11.2013
Offline
2
#5

Если сделать упор в основном на ПФ 90, и исключить такое понятие, как трастовость сайта?

Проблема поисковиков сейчас в том, что в ТОП попадают не качественный контент а с большим количеством ссылок.

Или например в выдаче будут две колонки. Одна колонка это запросы с хорошим ПФ, другая молодые, но качественные сайты.

Froolex
На сайте с 08.06.2011
Offline
56
#6

ТС веб бетки еще нет? Я бы посоветовал посмотреть в сторону Я.Островов и реализовать что-то подобное в узкой нише. Например те же энциклопедии, проиндексировать википедию и оттачивать на ней релевантность ответов. Постепенно можно государственные сайты индексировать их сейчас достаточно много. Или социальные сети, тот же контакт там можно поиграться с ранжированием по лайкам/репостам. На самом деле много чего можно сделать, главное делать а не слушать флудеров на форумах;-)

Настоящий облачный хостинг (https://goo.gl/kuxXMK) от 1$ в месяц!
Solmyr
На сайте с 10.09.2007
Offline
501
#7

+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.

avgar
На сайте с 07.08.2013
Offline
5
#8

Нишевый поиск по товарам, чтобы не по маркету искать и топам. А по всем торг.точкам результаты выдавались, с авито и прочими. Только на продажах и прибыли это плохо скажется. Зато покупатели довольны будут. Ну и подобно Островам, чтобы не отставать от Я.

Прорыв 35! До дохода 50000$/нед. Партнёрка на знаниях. Довгань и ещё более 300 авторов. >1000 курсов. Учись и богатей. (http://office.winnersacademy.ru/164908) Бесплатный вебинар каждый день в 20:00мск. Анонимная регистрация.
SAlex
На сайте с 27.07.2008
Offline
409
#9

Идеи должны быть свои. А вот исполнителей можно найти на стороне. За свои деньги.

Об инвесторах думать рано, пока у вас ничего нет, что можно тестировать.

B
На сайте с 15.01.2014
Offline
43
#10
Solmyr:
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.

Википедия задумывалась как кладезь структурированой информации.

Как по мне, проблемы поиска там нет, любую инфу можно искать и по вхождениям и по категориям и по похожим статьям.

---------- Добавлено 18.01.2014 в 22:14 ----------

MyBestFriend:
Если сделать упор в основном на ПФ 90

Что такое ПФ 90 ?

---------- Добавлено 18.01.2014 в 22:18 ----------

avgar:
Нишевый поиск по товарам, чтобы не по маркету искать и топам. А по всем торг.точкам результаты выдавались, с авито и прочими. Только на продажах и прибыли это плохо скажется. Зато покупатели довольны будут. Ну и подобно Островам, чтобы не отставать от Я.

Думал про это, но натолкнулся на сайт, например prom.ua.

Сама по себе идея интересная, особенно фасетного поиска, поиск товаров по большому количеству разных параметров. Множество вебмагазинов достаточно уныло выглядят в плане поиска, часто поиск только по категории товара. Но пока задача трудно реализуемая, посколько прийдется писать море парсеров.

---------- Добавлено 18.01.2014 в 22:19 ----------

PS: Проиндексирован еще один форум

http://www.skoda-club.org.ua/forum/

Общее количестве html страниц - 214 571

Общий обьем данных - 12 гб

Результирующий индекс - 75мб

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий