Напишите, что в каждой из 10 млн страниц встречаются все 14 млн слов - Поисковые технологии

Отечественный поисковый движок

Bazist · 2014-01-15T21:56:13.0000000Z

Добрый День, Последние пару лет я занимаюсь созданием поискового движка полнотекстового поиска. Движок пишется с нуля, на "голом" Си. Первая версия по функциональности достаточно примитивна - обычный инвертированый индекс. В базовом варианте страницы не ранжирует, расстояние между словами не учитывает. Зачем писать еще один ? Как обычно, быстрее индексация (60-120мб\сек), компактней индекс (сжатие до 99%), выше скорость поиска (до 1млн простых запросов в секунду). Что сделано на сегодня, проиндексировано dou.ua (0.5гб html текста) Habrahabr.ru (15гб html текста), Sql.ru (56гб html текста), Lib.rus.ec (250гб текста), Всего контента: 320гб Результирующий индекс: ~4 гб Вообщем вопрос такой. Я хотел бы этот движок развить в современную поисковую систему, с каки-нибудь интересными фичами. Вообщем мне нужны советы, как это можно сделать, с чего начать, какие фичи можно реализовать для создания уникального движка, где искать инвесторов ? Ведь потенциал у движка есть стать именно поисковой системой, по моим чисто теоретическим расчетам на обычный 1-2ТБ винт вместится индекс на весь текстовый контент рунета. Из фич для просто инвертированого индекса, пришла например такая идея. Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов). Такое гдето уже реализовано ? Стоит ли за это браться ? Вообщем хотелось бы просто пообщатся с толковыми людьми на эту тему. Спасибо за любые ответы ! ЗЫ: Также открыт для переписки support[сбк]pikosec.com

693

dlyanachalas

18 января 2014, 20:27

#21

Bazist:
Инвертированый индекс потому и называется инвертированым, потому что он перевернут.
Это сделано для того, чтобы поиск какого либо слова сводился к одному запросу по хештаблице.
Опять таки, у Вас формула какаято странная, да и простыми методами Вы просто так не вычислите потенциал сжатия. Это зависит от многих факторов.

Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все документы в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.

Тут не в перевернутости дело) ;)

Допустим, вы намекаете, что некоторые слова встречаются только в 1-2 документах. Да! Это так. Но есть слова, которые встречаются почти во всех. Или 10%, допустим. Таких слов - тысячи, а возможно и десятки тысяч.

Так что даже если делать не полную матрицу, а именно списки, всё-равно много получается. Ну а в несжатом виде - таки 560 Тб по канону будет :)

Нужен анализатор для списка Домены второго уровня, возможно Язык запросов директа

B

43

Bazist

18 января 2014, 20:51

#22

dlyanachalas:

Ок, я считал в другой плоскости, теперь понятно, как у вас. Теоретически, получается 14 млн слов * 10 млн страниц * 4 (байт) = 560 Тб несжатого индекса :)

В этой формуле почемуто сделано допущение, что в каждой из 10 млн страниц встречаются все 14 млн слов. Конечно это не так.

Расчет примерно такой, в целом словарь содержит 14 млн слов, средняя html страница, например на этом форуме, содержит 50 кб текста и каждый документ содержит всего лишь несколько сотен слов из словаря.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня

SearchInform Internet Server Эксперимент с контентом Неуникальный словарь на сайте

D2

0

Damir292014

19 января 2014, 15:38

#23

Как напишешь добавь мой сайт себе в поисковик))

http://vibirai.kz

56

Froolex

19 января 2014, 22:33

#24

А что будете делать когда индекс в несжатом виде достигнет тысячи терабайт и число обращений к поиску скажем 2-3кк в час. Как в таком случае будете ранжировать результаты? Ведь то что вы делаете сейчас это лишь теория основанная и подкреплена опытом работы с малыми объёмами данных (когда то первая версия Яндекса была похожа на ваше творение). Хотя я думаю сделаете отдельный индекс позиций на этот случай, сжимаемый по вашему методу (аналог PR, ТИЦ). ТС я прям предвкушаю пощупать ваше творение:-) когда уже будет готова веб-бетка?

Настоящий облачный хостинг (https://goo.gl/kuxXMK) от 1$ в месяц!

FDProfit: белая партнерка по Теория Rev о вымышленном Срезало половину страниц в

TC

90

The_Curious

20 января 2014, 06:25

#25

Solmyr:
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.

Зачем? Встроенный поиск вики юзать религия не позволяет?

[Удален]

20 января 2014, 13:15

#26

/deldeldel

L

28

LDblue

20 января 2014, 15:08

#27

Демо есть?

[Удален]

21 января 2014, 09:43

#28

Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.

https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B

W2

78

war21x3b

23 января 2014, 15:55

#29

Слава яицам! Наконец то в разделе "поисковые технологии" появился человек который занимается поисковыми технологиями. Считал что данный раздел давно пора закрывать...

По сабжу - не знаю чем, но очень хочу помочь развитию Вашей системы.

Примите мои наилучшие пожелания.

1

с уважением war21x3b

Аналог Летитбит Как прописать алиас Массовое наращивание бэков и

56

Froolex

24 января 2014, 21:01

#30

Arhitrade:
Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.
https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B

+1 Насколько мне известно Яндекс уже работает в этом направлении.

Open AI тестирует память для ChatGPT

Все что нужно знать о DDоS-атаках грамотному менеджеру

Отечественный поисковый движок