На сайте тестировались заявленные на сайте цифры. Зачем расхваливать скорость индексирования, если юзеры поисковика будут видеть только скорость - Поисковые технологии

Поисковик для локальной сети

Neolite · 2006-04-18T06:59:56.0000000Z

Пытался найти в интернете нечто подобное, но так ничего вразумительного и не нашел. Подскажите, какой-нибудь готовый продукт, подходящий под следующие критерии: поиск по HTTP/FTP, сканирование >25 000 фтп серверов + примерно столько же сайтов. На момент написания поста в базе старого поисковика содерджится почти 10 000 000 записей. В дальнейшем планируется увеличение базы и кол-ва запросов в день. Текущая нагрузка >15 000 запросов в день. Попутно вопрос: потянет ли такое mnogosearch/dataparksearch при способе хранения cache, при использовании Oracle? Заранее спасибо.

K

12

Kryukov

26 апреля 2006, 19:41

#21

Leom:
Если ищете не бесплатное, то данное решение будет для вас оптимальным

где и как тестировались заявленные на сайте цифры Я привык быстренько все прикидывать в голове и получаю картину:

Дано: скорость индексации 30 ГБ/час. Средний html документ составляет 30 КБ. При заявленной скорости однопоточный индексатор производит индекс 300 документов в секунду т.е. на индексацию одного документа уходит 3 миллисекунды. Вы меня извините, но в среднем только на доступ к любой информации на диске (будь то файл или "сырое" устройство) уходит 7-10 миллисекунд вне зависимости от ОС - это время seek головки считывания (простая физика). А тут надо еще прочитать данные, создать порцию индекса, добавить к ранее полученной (ведь не все же 30 гигов сидят в памяти) и записать на носитель. Не открывая Ваше ноу-хау, на пальцах - как такое возможно? Или может цифры обозначают что-то иное и я не правильно понял?

Если вы будете следовать инструкциям, то каждое блюдо будет получаться у вас таким же, как и у нас, даже если раньше вы никогда не занимались приготовлением пищи. Поваренная книга Мак-Колла и эпиграф Д. Кнута (http://www.turtle.ru/)

Добавьте налоговую информацию Вопрос по js, как Анализ скорости загрузки сайта:

Z

32

Zute

26 апреля 2006, 19:55

#22

Другой вопрос: а зачем расхваливать скорость индексирования, если юзеры поисковика будут видеть только скорость поиска ?

I

64

itman

26 апреля 2006, 20:00

#23

некоторые поисковики, так долго индексируют, переиндексируют, что доджаться того светлого момента, когда можно искать практически нет никакой возможности.

Zute:
Другой вопрос: а зачем расхваливать скорость индексирования, если юзеры поисковика будут видеть только скорость поиска ?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

K

12

Kryukov

26 апреля 2006, 20:43

#24

Zute:
Другой вопрос: а зачем расхваливать скорость индексирования, если юзеры поисковика будут видеть только скорость поиска ?

На самом деле, это достаточно важная (хоть и не главная) характеристика SE для потенциальных владельцев. При прочих равных условиях я бы предпочел поисковик, который при добавлении к N гигабайт данных еще 30 ГБ через час будет искать по всей моей коллекции. Но меня надо в этом убедить. Возможно, просто автор предложения ошибся конфой, но в любом случае, без аргументации вряд ли что-то можно продать :)

I

64

itman

26 апреля 2006, 20:59

#25

Кстати, насчет 7 мс я тоже в корне не согласен. Это только время позиционирования головки. В случае последовательного считывания-записи на диск все совсем по-другому. Чисто теоретически можно строить индекс со скоростью сравнимой со скоростью записи на диск. Особенно если один винт на чтение работает, а второй на запись.

Сначала строим N инвертированных индексов в памяти записываем на диск. Потом за один проход их читаем с одного диска и сливая пишем на другой диск. Опять-таки, если читать каждый раз большими кусками по несколько мегабайт все будет работать со скоростью чтения-записи. Считанные куски естественно сливаем в памяти, записываем на диск.

Разбор документа тоже можно делать довольно быстро. Если парсер, конечно, не тормозит. Другое дело, что достижение такой высокой скорости на практике дело весьма трудоемкое, требующее высококвалифицированных программистов и быстро работающего парсера.

K

12

Kryukov

26 апреля 2006, 21:19

#26

itman, Собственно я и спросил, где и как проводилось тестирование :) Я могу заявить и значительно большие цифры. Другой вопрос, что мы тестируем: количество и мощность наших Крэй-ев или что-то, что можно пощупать в реальной жизни. А реальность именно такая, что 30ГБ данных - это миллион документов, а не абстрактный массив нулей и единиц, который читается последовательно и с интерливами и кэшем и прочим :) Не согласны?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 апреля 2006, 21:32

#27

Я вот недавно тестировал: 3.5 документов (по тексту примерно в два раза меньше, чем средний вебовский документов, или примерно как два млн средних HTMLей) со специальным добавочным индексом, размер которого превышает исходный раз в пять-шесть индексируются часов 20. На слабеньком гигагерцовм пне с 512к ОЗУ и ОДНИМ IDE диском. Собственно поделим это число на пять, получаем 4 часа без дополнительного индекса. Или два часа на млн стандартных вебовских документов. Похожие цифры получаются? Как раз была реализована стратегия параллельного слияния нескольких индексов.

Ну и потом, даже если господин Леом где-то проколося в ошибках измерения раза так в 2-3. То даже с такой поравкой скорость индексирования более чем удовлетворительная.

Kryukov:
itman, Собственно я и спросил, где и как проводилось тестирование :) Я могу заявить и значительно большие цифры. Другой вопрос, что мы тестируем: количество и мощность наших Крэй-ев или что-то, что можно пощупать в реальной жизни. А реальность именно такая, что 30ГБ данных - это миллион документов, а не абстрактный массив нулей и единиц, который читается последовательно и с интерливами и кэшем и прочим :) Не согласны?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 апреля 2006, 21:40

#28

Ну и небольшая поправочка: индексы, даже промежуточные были сжатыми, алгоритм распаковки подбирался быстрый, собственно это был VBC (variable byte coding). Он отличается тем, что распаковывает-упаковывает заметно быстрее, чем идет запись на диск. Возможно, что за счет этого достигается определенный доп выигрыш.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

26 апреля 2006, 21:42

#29

Kryukov:
При прочих равных условиях ...

При каких прочий ? Про скорость поиска-то ни гугу :)

I

64

itman

26 апреля 2006, 21:49

#30

Вот неправда, было это в соответствующей теме. И, кстати, вполне себе нормальная скорость поиска.

Zute:
При каких прочий ? Про скорость поиска-то ни гугу :)

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Поисковик для локальной сети