Отечественный поисковый движок

dlyanachalas
На сайте с 15.09.2006
Offline
693
#21
Bazist:
Инвертированый индекс потому и называется инвертированым, потому что он перевернут.
Это сделано для того, чтобы поиск какого либо слова сводился к одному запросу по хештаблице.
Опять таки, у Вас формула какаято странная, да и простыми методами Вы просто так не вычислите потенциал сжатия. Это зависит от многих факторов.
Инвертированный индекс (англ. inverted index) — структура данных, в которой для каждого слова коллекции документов в соответствующем списке перечислены все документы в коллекции, в которых оно встретилось. Инвертированный индекс используется для поиска по текстам.

Тут не в перевернутости дело) ;)

Допустим, вы намекаете, что некоторые слова встречаются только в 1-2 документах. Да! Это так. Но есть слова, которые встречаются почти во всех. Или 10%, допустим. Таких слов - тысячи, а возможно и десятки тысяч.

Так что даже если делать не полную матрицу, а именно списки, всё-равно много получается. Ну а в несжатом виде - таки 560 Тб по канону будет :)

B
На сайте с 15.01.2014
Offline
43
#22
dlyanachalas:

Ок, я считал в другой плоскости, теперь понятно, как у вас. Теоретически, получается 14 млн слов * 10 млн страниц * 4 (байт) = 560 Тб несжатого индекса :)

В этой формуле почемуто сделано допущение, что в каждой из 10 млн страниц встречаются все 14 млн слов. Конечно это не так.

Расчет примерно такой, в целом словарь содержит 14 млн слов, средняя html страница, например на этом форуме, содержит 50 кб текста и каждый документ содержит всего лишь несколько сотен слов из словаря.

www.booben.com (www.booben.com) - ассоциативный поисковый движок Блог (blog.pikosec.com) - как создавался поисковый движок с нуля Альбом (http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40today%20%40img%2B1&s=online&a=search&p=1) картинок searchengines.guru за сегодня
D2
На сайте с 19.01.2014
Offline
0
#23

Как напишешь добавь мой сайт себе в поисковик))

http://vibirai.kz

Froolex
На сайте с 08.06.2011
Offline
56
#24

А что будете делать когда индекс в несжатом виде достигнет тысячи терабайт и число обращений к поиску скажем 2-3кк в час. Как в таком случае будете ранжировать результаты? Ведь то что вы делаете сейчас это лишь теория основанная и подкреплена опытом работы с малыми объёмами данных (когда то первая версия Яндекса была похожа на ваше творение). Хотя я думаю сделаете отдельный индекс позиций на этот случай, сжимаемый по вашему методу (аналог PR, ТИЦ). ТС я прям предвкушаю пощупать ваше творение:-) когда уже будет готова веб-бетка?

Настоящий облачный хостинг (https://goo.gl/kuxXMK) от 1$ в месяц!
TC
На сайте с 13.05.2013
Offline
90
#25
Solmyr:
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.

Зачем? Встроенный поиск вики юзать религия не позволяет?

[Удален]
#26

/deldeldel

L
На сайте с 08.10.2013
Offline
28
#27

Демо есть?

[Удален]
#28

Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.

https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B

W2
На сайте с 04.06.2008
Offline
78
#29

Слава яицам! Наконец то в разделе "поисковые технологии" появился человек который занимается поисковыми технологиями. Считал что данный раздел давно пора закрывать...

По сабжу - не знаю чем, но очень хочу помочь развитию Вашей системы.

Примите мои наилучшие пожелания.

с уважением war21x3b
Froolex
На сайте с 08.06.2011
Offline
56
#30
Arhitrade:
Bazist, обратите внимание на будущее DNS-серверов, возможно, там Вы найдёте почву для Вашего поисковика.
https://www.google.com.ua/search?ie=UTF-8&hl=ru&q=dns-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0%20%D0%B8%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D1%8B

+1 Насколько мне известно Яндекс уже работает в этом направлении.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий