Вводите слово, которое на главной странице отсутствует - Администрирование серверов

Как правильно организовать базу?

INick · 2006-03-30T15:16:27.0000000Z

Где-то вычитал, что делается примерно так: 1) Существует таблица-словарь, где (как я понял) записаны вобще все слова: [ID_слова][слово] 2) Текст страницы помещается в таблицу [ID_страницы][Текст_Страницы] 3) Когда обрабатывается какая-либо страница, расчитывается релевантность каждого слова и т.о. заполняется следующая таблица: [ID_слова][ID_страницы][Релевантность_Слова] Как-то так... Но при этом нельзя будет учесть, насколько близко располдожены слова поиска. Ну да ладно. Непонятно другое: как все слова записать в (1)? Яндекс, например, и с опечатками ищет... ИМХО: это всё несовсем правильно. Предложите свои идеи по модернизации или дайте, плиз, документацию почитать (желательно на русском). Заранее багодарен.

I

64

itman

2 апреля 2006, 08:28

#11

Не бывает самой релевантной страницы сайта Например, вы вводите, слово, которое на главной странице отсутствует. Более того, оно отсутствует на страницах, ссылающихся на эту страницу. И в эпсилон-окрестности также нет слов, форм-слова и его синонимов. Как эта главная страница может быть вообще релевантной?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

I

1

INick

2 апреля 2006, 08:40

#12

Я имею ввиду сделать с надписью "Еще с сайта (33687)", а показывать одну.

Главная страница - это просто url сайта, а все второстепенные = главная + какие-то дополнения (для того, чтобы при хранении места меньше занимали, и чтобы было понятно, что все они принадлежат одному сайту).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

2 апреля 2006, 08:58

#13

А аннотацию Вы тоже с этой главной страницы будете делать?

INick:
Я имею ввиду сделать с надписью "Еще с сайта (33687)", а показывать одну.
Главная страница - это просто url сайта, а все второстепенные = главная + какие-то дополнения (для того, чтобы при хранении места меньше занимали, и чтобы было понятно, что все они принадлежат одному сайту).

11

ЗодчийТеней

2 апреля 2006, 09:25

#14

INick:
(для того, чтобы при хранении места меньше занимали, и чтобы было понятно, что все они принадлежат одному сайту).

при такой экономии и при указанных вами объемах выигрыш будет в пару десятков килобайт, но при этом вы затратите больше процессорного времени и скорее всего будете делать большее количество обращений к базе данных, смысл?

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

I

1

INick

2 апреля 2006, 10:34

#15

Для itman: нет, аннотация с той страницы, которая релевантна.

Для ЗодчийТеней: Согласен, экономии мало. Может тогда просто дополнительное поле ввести (id_group), которое будет говорить, что страницы находятся на одном сайте? Не сравнивать же каждый раз url-и...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

60

InSAn

2 апреля 2006, 18:26

#16

itman:
таблица связей
url_words
url_id
word_id
pos

А как Вы собираетесь устанавливать позицию слова, если оно будет встречаться в документе десятки раз? ;)

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)

I

64

itman

2 апреля 2006, 18:38

#17

InSAn:
А как Вы собираетесь устанавливать позицию слова, если оно будет встречаться в документе десятки раз? ;)

1 вариант будет десяток записей

2 можно собрать эти записи в один блоб, но в действительности выигрыш от такого объединения может быть иллюзорным. все от базы зависит. в оракле, например, блобы лежат в отдельных файлах, поэтому на каждую такую запись будет создаваться 4 или 8 килобайтный файл!!! в mysql блобы вроде хранятся в теле таблицы, но если постоянно происходят обновления, удаления, и прочая, то таблица с записью перменного размера может сильно фрагментироваться и производительность опять-таки упадет. то же самое будет, если хранить не блобы, а варчары.

короче, с какой стороны не поглядеть SQL это сакс и производительность такой поисковой машины в сто раз меньше, чем у машины со статическим инвертированным файлом.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

2 апреля 2006, 19:46

#18

itman:
в mysql блобы вроде хранятся в теле таблицы

любая база данных это всего лишь набор файлов, а сама «база» лишь интерфейс доступа к ним, блобы, варчары, какую размерность поля вы зададите для варчара? Пять, десять, сто символов? А как индекс по ним? Чем больше размерность поля, тем больше места будет занимать индекс, а в большинстве случаев он будет избыточен. Тупик? Разрабатывать свой интерфейс доступа к данным?

З.ы. по объемам и производительности на мускуле, мускуль прекрасно работает с базами до терабайта, другой вопрос если вы начнете сегментировать базу тогда он уходит, но точно также тут пасует и оракакел, что остается, db2? Или все же своя база данных? или просто файловая система?

Думаю что все будет зависить от поставленных задач и их окупаемости.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

2 апреля 2006, 20:08

#19

1) Отнюдь не любая база данных - это набор файлов, как это в mysql. Некоторые базы умеют с сырыми дисками работать, так там файлов нет вообще. Возвращаясь к ораклу. У него данные хранятся в экстентах, а экстенты в дата файлах. Дата-файлы составляют табличное пространство. Так вот, когда в таблицу заносятся всякие варчары и инты, то под них выделяется место прям-таки в этих экстентах из табличного пространства. Когда там хранится блоб, то реально вместо блоба хранится только блоб-локатор. А сам блоб хранится в другом месте. Ну может не в отдельном файле, но в отдельном экстенте размером 4 к минимум.

В mysql это не так. Там блобы укладываются прям-таки в табличное пространство. Это означает, что вместо записией постоянного размера, там появляются записи сильно переменного размера. Что по-моему и не только по-моему опыту работы сильно сказывается на производительности. Не в лучшую сторону.

Теперь по-поводу того, какого размера варчар туда положить. Варчар он на то и варчар, что переменного размера. Соответственно максимальный размер берем по максимуму. Позиции храним упакованные, все позиции, которые не влезают выкидываем. Немножечко скажется на релевантности в одном случае из тысячи. Не очень критично.

По поводу держания мускулом террабайта? Это в каком виде он его держит? В виде одной таблицы? Какой тип таблиц? MyISAM не потяент, потому что свалится на блокировках. А, вообще, повторюсь, что SQL решение в 100 раз медленнее, чем статический файл. Особенно печально происходит там индексация.

PS: по моему опыту, у мускульных поисковиков проблемы начинаются отнюдь не с террабайтов, а с десятка гигабайт. то есть на десятке гигабайт полный ПPЕВEД.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

11

ЗодчийТеней

2 апреля 2006, 20:50

#20

Некоторые базы умеют с сырыми дисками работать, так там файлов нет вообще – умеют, не спорю, лотус например, правда по моему только когда он на сервере домино висит а вот на паче не умеет или db2, насчет остальных не знаю. В остальном вы опять же упираетесь в интерфейс доступа к данным который во многом унифицирован и вам вовсе в данном случае не нужен

терабайт в одной таблице? интересно db2 с этим справится? интересно будет попробовать. Для примера моя рабочая база хранится в мускуле и занимает 360 Гб, пользуется правда только во внутренней сети, это всего полтора десятка пользователей, но комп на котором она висит древний, семпрон 2500 кажется, тормозов нет никаких.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, если ваша email-рассылка попала в спам

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Как правильно организовать базу?