Поисковик для локальной сети

Z
На сайте с 03.01.2004
Offline
32
#31
itman:
Вот неправда, было это в соответствующей теме. И, кстати, вполне себе нормальная скорость поиска.

А вот и правда, по предложеной ссылке сходи, убедись. А что там на левом форуму писалось ... :d

Не говоря уже о том, что публично публикуемые результаты тестов принято проводить на публично доступных корпусах, - это ж коммерческий продукт в конце концов :)

I
На сайте с 26.05.2001
Offline
64
#32

Да я в общем-то разделяю в какой-то степени скептицизм по поводу проанонсированных цЫфр, просто хочу сказать, что это отнюдь не невозможно. А под публичными коллекциями часом не ромиповская имеется в виду? Так там меньше миллиона урлов.

Zute:
А вот и правда, по предложеной ссылке сходи, убедись. А что там на левом форуму писалось ... :d

Не говоря уже о том, что публично публикуемые результаты тестов принято проводить на публично доступных корпусах, - это ж коммерческий продукт в конце концов :)
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
K
На сайте с 11.11.2005
Offline
12
#33
Zute:
При каких прочий ? Про скорость поиска-то ни гугу

Это верно. А было бы интересно...

О моей первой реплике:

Коллеги, я просто призывал не лукавить :) приводя конкретные цифры. Ну посудите сами, если для того, чтобы достичь скорости индексирования в указанную цифру (что вполне реально) мне предложат сначала потратить N часов (нет.... мы тут все математику изучали, N - много.... m часов :) ) для "правильной организации" этих данных, та какова же реальная скорость

Если вы будете следовать инструкциям, то каждое блюдо будет получаться у вас таким же, как и у нас, даже если раньше вы никогда не занимались приготовлением пищи. Поваренная книга Мак-Колла и эпиграф Д. Кнута (http://www.turtle.ru/)
Z
На сайте с 03.01.2004
Offline
32
#34
itman:
А под публичными коллекциями часом не ромиповская имеется в виду? Так там меньше миллиона урлов.

Есть TREC Terrabyte collection. И у TREC есть весь существенное преимущество над ромипом, результаты тестов публикуются в сравнении всех участников друг с другом.

L
На сайте с 02.05.2004
Offline
35
#35
Kryukov:
где и как тестировались заявленные на сайте цифры

Базы «11.1», «21.85», «41.17», «83.22» – это англоязычные патенты в формате HTML. Документы физически хранятся в архивных файлах формата ZIP по 5000 – 10000 файлов в одном архиве.

База «132.26» кроме патентов в HTML на «83.22» Гб также содержит информацию из тестовых баз форматов (DOC, RTF, PDF) и тексты «10.7».

Не буду грузить конфу копией всего описания -- оно доступно на сайте и вот прямая ссылка http://www.searchinform.com/site/ru/main/search-inform-indexing-speed-tests.htm

Кстати средний размер html не 30 кб а 10 кб. Но естественно на 'fnfgt индескирования это уже все в зипе например по 5000 файлов.

С прикладной точки зрения ничего не мешает пауку после скачивания страницы ложить ее в архив.

Заявленные скорости безусловно подразумевают средне-нормальные условия. А если довести дло обсурда, то можно создать 100 миллионов файлов по 10 байт (по одному слову в файле) так там только винда эти файлы бцдет сканировать часа 3, хотя инфы то всег 1 гиг

Только сие же уже относится не к индескированию а к кривым рукам прикладного программиста который такое утворил.

http://www.searchinform.com/site/ru/index.htm

Leo www.searchinform.ru (www.searchinform.ru)
Z
На сайте с 03.01.2004
Offline
32
#36

Осталась одна маленькая деталька: вот здесь http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740

указана скорость индексирования в 261.80 Kbytes/sec, в вашей шкале это выходит около 920 Гб/час. Очевидно, что собственно "индексированием" у каждой поисковой системы называются совершенно разные процессы. Что есть "индексирование" у вас ?

I
На сайте с 26.05.2001
Offline
64
#37

А это больше похоже на правду.

After 3,5 days of non-stop indexing was downloaded 17,5 Gb of data.
Zute:
Осталась одна маленькая деталька: вот здесь http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740
указана скорость индексирования в 261.80 Kbytes/sec, в вашей шкале это выходит около 920 Гб/час. Очевидно, что собственно "индексированием" у каждой поисковой системы называются совершенно разные процессы. Что есть "индексирование" у вас ?
Z
На сайте с 03.01.2004
Offline
32
#38
itman:
А это больше похоже на правду.

только относится к более древней версии...

I
На сайте с 26.05.2001
Offline
64
#39

Это согласуется с моим опытом на последней версии :-)

Может и стало быстрее, раза в два, только это все равно достаточно скромная скорость. И у DPsearch при его текущей архитектуре как раз то самое пресловутое ограничение в 5-7 мс * N, где N от пяти до десяти. Пока все в кеш влезает, то может скорость и будет 900 гб в час, а как только кешоверфлоу, имеем 0.5 - 1 документа в секунду (или примерно 10кб/c) при почти 100% загрузке проца и диска.

Zute:
только относится к более древней версии...
Z
На сайте с 03.01.2004
Offline
32
#40

Это ни с чем не согласуется. Я про то, что есть на самом деле "индексирование" в этом конретном случае не просто так спрашивал, возьём, к примеру, mp3-файл, его размер 3-4 метра в среднем, id3 заголовок - пара сотен байт, название песни и испольнителя, записываемые в идиекс - пара десятков байт, итак, какой объём проиндексирован ? Ведь считать-то можно по-разному. :) В тех же самых DOC и PDF файлах, на которых проводилось тестирование, запросто может оказаться несколько мегов вложеных изображений, пролетающих мимо индекса.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий