Размер поискового индекса Яндекса. Он мизерный!

12 3
[Удален]
11418

Читал одну статью про устройство Яндекса, и в нем говорилось, что зимой 2013 года размер всех проиндексированных данных в текстовом выражении, которые хранятся в Яндексе и по которым он ведет поиск – 214 ТБ.

Т.е. весь голый текст миллиардов документов, без html-разметки весит всего 214 ТБ.

Я просто в шоке. Ведь весь Яндекс можно поставить дома у себя под ногами. 3 двухюнитовых сервера, если в них вставить по 15 хардов на 6 ТБ, т.е. суммарно по 90 ТБ может уместить весь Яндекс.

Как так? Это же сущие копейки. Я думал что индекс Яндекса занимает миллионы петабайт, а он всего двести тысяч гигабайт!

seolink74
На сайте с 02.06.2006
Offline
385
#1

Яндекс =текст?))

Продвижение в ТОП3 Яндекс с оплатой по факту(писать в личку/Москва)
[Удален]
#2
seolink74:
Яндекс =текст?))

Нет, вы не поняли моего смысла)

Многие современные ГС, дорвеи, файлопомойки и прочие отбросы генерируют/агрегируют/собирают контент, исчисляемый десятками террабайт.

А весь поисковый индекс Яндекса (миллиарды документов) равен содержимому нескольких таких крупных помоек.

---------- Добавлено 27.09.2016 в 01:02 ----------

И это просто порвало мой шаблон.

Понятное дело, Яндекс высоконагруженная информационная система, имеет сотни серверов.

Но в теории весь вмещенный в нее контент со всеми алгоритмами можно разместить на нескольких серверах у себя под ногами.

Да, он не будет производительный, не получится разместить весь индекс в ОЗУ для моментального поиска, но клон яши, поставленный под ногами, ничем не будет отличаться от нее, кроме времени обработки запроса...

samimages
На сайте с 31.05.2009
Offline
392
#3

BlackMesa, он понял.

Тут момент какой, вы, другими словами, говорите что вся русская литература - это всего 33 буквы; нет, понятно, что вариантов их использования довольно много и приходится строить целые библиотеки для хранения особенно удачных комбинаций, но тем не менее все эти буквы легко умещаются на листке бумаги.

Вот поисковый индекс Яндекса... да и Гугла - суть тоже самое - 33 буквы

Опыт как иммунитет — приобретается в муках! Хостинг: 5Гб SSD [Россия] - 118 руб/мес + домен и SSL в подарок (http://www.hostland.ru/order/hosting/?r=fe5d289a) Аудит семантики от 15К [долго] - ЛС
[Удален]
#4

Представим, есть фундаментальная библиотека МГУ, которая содержит практически всю российскую научную литературу. Это неприметное 4-х этажное здание. Рядом стоят еще 2-х этажки библиотек других ведущих вузов – Бауманки, МФТИ и проч.

Поляна со зданиями этих библиотек окружена лесом из одноэтажных миниатюрных палаток с шаурмой. Палаток с шаурмой вокруг них десятки тысяч.

И неподалеку стоит неприметное 12 этажное здание советской постройки со сталинских времен. Это Яндекс. Он с трудом вмещает содержимое стоящих рядом библиотек и единичное содержание палаток с шаурмой.

При этом в массовом понимании это не то, что небоскреб из книги рекордом Гинесса. Это прямо Цитадель, инопланетное сооружение, уходящее далеко в облака…

sb1982
На сайте с 28.03.2007
Offline
278
#5

А король-то голый? Тоже считал, что индекс куда больше.

Собираю поисковый трафик
Ваано
На сайте с 01.08.2009
Offline
112
#6

Вам, как говорится, шашешки или ехать?)

С поиском в рунете Яндекс местами лучше Гугла справляется.

Значит хватает ему именно такого объема текстового индекса.

Туры в Мексику тут (http://www.metmexico.com). Оптимальное отношение цена/качество.
S
На сайте с 24.03.2010
Offline
57
#7

Кстати, а говорилось что-нибудь про метод сжатия? Наверняка индекс хранится не в чистом текстовом виде... хотя может быть и так... вот если условно посчитать 1 символ = 1 байт, то небольшой текст из 1000 символов = 1 кб, сайт из 1000 таких страниц = 1мб. Волне реально хранить на 214 тб 214 млн таких средних сайтов) это похоже на индекс

богоносец
На сайте с 30.01.2007
Offline
693
#8
samimages:
Вот поисковый индекс Яндекса... да и Гугла - суть тоже самое - 33 буквы

Ранжирующие системы ... занимаются не словами, а наборами символов,

и не только букв

www.google.ru/search?q=☻

www.google.ru/search?q=❄

www.google.ru/search?q=♐

хотя и буков с иероглифами сожрали... сами не знают сколько. Бот Щукин затруднился с ответом.

adel92
На сайте с 04.01.2012
Offline
334
#9
Ваано:
Вам, как говорится, шашешки или ехать?)
С поиском в рунете Яндекс местами лучше Гугла справляется.
Значит хватает ему именно такого объема текстового индекса.

Это только в РУнете и то в комм сфере (товары и услуги)

По информации Гугл куда лучше Яндекса будет☝

NVMe VDS (https://well-web.net/nvme-vps) с поддержкой 24/7 - от 545 руб.! Безлимитный хостинг (https://well-web.net/ssd-hosting) - от 129 руб.! Домен в подарок! Перенос бесплатно! Заказывайте сейчас, и получите скидку 50%! Заходи! (https://well-web.net/limited-offers)
D
На сайте с 18.12.2015
Offline
142
#10

Ну да, собрали вы кластер. А теперь запускаем полнотекстовый поиск по всей этой базе, с сортировкой по релевантности и куче других факторов. А выдачу вышлите на email, через неделю, как будет готова.

Разработка и поддержка высоконагруженных проектов.
12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий