Технический вопрос СУБД Яндекс

0

J0nny

29 июня 2005, 20:08

890

Интересует такой вопрос:

Какой тип базы данных использует яндекс (реляционный/постреляционный).

и общий принцип работы индекса. Меня давно заел этот вопрос, и вот наконец решился спросить. Прошу прощения, если высказал вопрос примитивно

482

Sergey Petrenko

29 июня 2005, 20:20

#1

http://company.yandex.ru/programs/web_200203.html - правда, теперь там всего больше.

J

0

J0nny

29 июня 2005, 21:01

#2

Более менее понятно объяснен прицип обработки запросов, однако о типах хранения данных ни слова

482

Sergey Petrenko

29 июня 2005, 21:42

#3

а там оригинальная система хранения данных, насколько я знаю. Т.е. если вас интересует, а не mySQL ли, например, то советую обратиться в раздел "Поисковые технологии" - /ru/forum/optimization-practices/search-technologies

SS

141

Seventh Son

30 июня 2005, 05:35

#4

Да, Сегалович говорил, что весь софт они для себя писали сами. Но точно не помню, где читал это - это или у них на форуме или здесь в "поисковых технологиях"

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт

1030

Каширин

30 июня 2005, 05:42

#5

Сокет 😎

RC

18

RealtyCD

30 июня 2005, 07:36

#6

Моя системка полностью на php и роботы и всё остальное, а от СУБД пришлось отказаться вообще. В примитиве индекс приблизительно такой: лемма=файл. Получается быстрее значительно...

Больше я к realty.cd никакого отношения не имею. Компания разорилась, домен просрочен и регнут кем-то заново. Вот так вот.

J

0

J0nny

30 июня 2005, 14:00

#7

RealtyCD
если не трудно рассказать принцип работы

RC

18

RealtyCD

30 июня 2005, 14:16

#8

В кратце:

каждому слову (точнее его значимой части - лемме) соответствует файл в котором сохраняются данные о его местоположении (URL, место в тексте). В моем случае это сжатые текстовые файлы. При поиске выбирается наименьший по размеру файл (из слов запроса) и далее проверяется соответствие остальным словам запроса.

Т.е. в принципе, если бы запрос состоял из одного слова, то суть выдачи результата сводилась бы к выдаче содержимого этого файла.

Выглядит это приблизительно вот так: \folder\s\slovo.gz

Т.е. получив запрос "slovo" мы просто открываем файл "slovo" :)

У меня получилось около 400 000 таких вот файлов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Что такое Power BI и зачем это нужно бизнесу