Комментарии - alyak - Профиль вебмастера - Форум об интернет-маркетинге

Подбор СУБД

7 апреля 2005, 06:37

Молодой человек, вы видимо не прочитали ту главу и не засели за калькулятор. Да , ваш пример скорее всего правильный. Потому что на больших таблицах ( с длинными полями) размер указателя хранящегося в индексе будет не существенным относительно всей длинны индекса, но для поискового сервера вам понадобаться микротаблицы типа KeywID , PageID , pos1, pos2 . И на них размеры индекса превысят размер таблицы. Да и в вашем примере превышает , но не существенно.

Подбор СУБД

6 апреля 2005, 16:23

Как писал Maxim Golubev

не совсем понял логику автора, если большой индекс, больше положенного по расчётам - так это вина архитектора БД и/или программиста.

Простой пример , таблица из одного поля INT ( 4 байта) , индекс построенный по этому значению будет занимать ( 4 + 4(размер указателя) ) * 3/2 (заполняемость) или на 1 значение - 12 байт, что ~ в 3 раза превысит оригинальный размер таблицы. И это не вина разработчика , а особенность хранения данных .

По mysql прочтите раздел "Estimating Query Performance".

а вы думаете при написании свой БД не возникает проблем ?!

Однозначно это сложнее , только есть техническая задача и ее решение , иначе в песочницу .

Подбор СУБД

6 апреля 2005, 14:52

Тема вроде давно отзвучала , но все же.

Я конечно не знаком с разработчиком "совы" , я сам разработчик другого украинского сервера , "сова" меня опережает по посетителям, но не намного. Суть не в этом . Пользователи так же недовольны.

После определенных измышлений я пришел к выводу что SQL базы не годятся для поисковых машин и вот из каких соображений. Дело в том что индексы SQL баз состоят из листов , в которых есть значение и ссылка на запись в таблице. При ничтожных записях , таких как например KEYW(INT) DOC(INT) POINTS (int) , размер индекса превышает размер таблицы, для оптимизации SQL запроса таких индексов может быть три , в итоге индексы могут превысить саму запись в несколько раз. Вы индексируете 1 мб , а получаете 4 мб . Для публики дожно быть понятно что я здесь описал процесс очень грубо, если хотите узнать как помучайтесь сами ;-). Отсюда следует расход памяти и скорость. Кроме того , SQL базы оставляют "дыры" в индексах, они нужны чтоб быть готовыми вставить запись. Что для поискового сервера не совсем требуется.

Во вторых я пришел к выводу , что процесс должен состоять из двух частей , первая - это сбор и коллекционирование информации (тут может применяться SQL) , не путать с простой работой паука, и компилирование собранной информации в структуру пригодную для поиска. В процессе компиляции часть информации может быть отброшена , например если слово "окно" посторяется 100000 раз , то поверьте оно врядли вам пригодиться в таком количестве. При выдаче обычно отдается первых 200 результатов , и даже если предположить что возможен mix с другими словами , все равно его столько не нужно. А сколько нужно - будет зависеть от вашей политики.

Далее я заметил что яндекс меняет выдачи версиями баз. Т.е. коллекционирует и в определенные дни происходит замена одной базы на другую. Целиком.

Более я убежден что яндекс например сначала выбирает "кандидатов" , затем делает пересортировку в памяти и выдает в выдачу. Но кандидаты при этом "верные". Далее результаты этого кеша еще некоторое время хранятся - вторая и следующие страницы выдаются с кеша.

Что касается mysql и применения в непоисковых системах, то тут у меня имеется опыт до 4 Гб , все работает очень быстро.

Сайт полностью удален из яндекса

9 марта 2005, 17:22

Не ну че прислушался , удалил линкаторы . И написал там по другому . Каталог полезных ссылок. В принципе они мне не нужны . И так все со всем нормально.

Сайт полностью удален из яндекса

9 марта 2005, 13:03

Кстати , а как происходит склейка, последствия . Как это выглядит . Я поставил ссылки на другом сайте на том же IP , с точным соответвием тайтла, и текста ссылок на основном сайте.

Сайт полностью удален из яндекса

8 марта 2005, 16:39

Мы говорим не о том что он на самом деле представляет. А то что я не вижу ничего противозаконного. Если яндекс каталог меряет качество по нему, почему я не могу померять.

Сайт полностью удален из яндекса

7 марта 2005, 07:44

А чем вам не понравилось N1 ? Собственно тИЦ является параметром качества ресурса. Теоретически. Чем больше цитируют ресурс тем он лучше. И вполне законно желание представить только качественные ресурсы.

Сайт полностью удален из яндекса

7 марта 2005, 06:46

История продолжаеся , с этой суботы опять ничего нет в яндексе и робот за это время не посещал ...

Сайт полностью удален из яндекса

3 марта 2005, 21:00

Что называется "ну нифига себе" , ей богу за пару часов еще раз смотрел . Данцинг ????

Или письмо в саппорт , я писал ?

Или барабашки ?

Сайт полностью удален из яндекса

3 марта 2005, 18:52

- письма в суппорт;
- чистка сайта;
- время...

Помогало ? Примеры ? Или чисто теоретически ?

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

alyak