Zute

Рейтинг
32
Регистрация
03.01.2004

Объясните мне, тупому, разницу между заглавными и прописными. А строчные - это какие ? :D

itman:
Там очень подробно расписано сколько именно так называемого чистого текста (и даже количество слов приведено) проиндексировано. Согласитесь, что как-то странно после этого приводить примеры индексации mp3 файлов :-)

Отнюдь не странно, там для набора DOC файлов приводится наибольшая скорость индексирования, аж 72,2 Гб/час. Смотрим на размер соответствующего чистого текста - 179 Мб, делим на затраченное время, получаем 6,69 Гб/час. Так нагляднее ? Для развлечения посчитайте для набора pdf файлов :d

itman:
Я Вас поздравлюю, у нас еще один человек, который невнимательно читает. Может сначала сходит по ссылке, которую дал Леом, а потом высказываться?

А не соблаговолите ли вернуться в конкретное русло и указать, что же именно по вашему я там неправильно прочитал ?

Это ни с чем не согласуется. Я про то, что есть на самом деле "индексирование" в этом конретном случае не просто так спрашивал, возьём, к примеру, mp3-файл, его размер 3-4 метра в среднем, id3 заголовок - пара сотен байт, название песни и испольнителя, записываемые в идиекс - пара десятков байт, итак, какой объём проиндексирован ? Ведь считать-то можно по-разному. :) В тех же самых DOC и PDF файлах, на которых проводилось тестирование, запросто может оказаться несколько мегов вложеных изображений, пролетающих мимо индекса.

itman:
А это больше похоже на правду.

только относится к более древней версии...

Осталась одна маленькая деталька: вот здесь http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740

указана скорость индексирования в 261.80 Kbytes/sec, в вашей шкале это выходит около 920 Гб/час. Очевидно, что собственно "индексированием" у каждой поисковой системы называются совершенно разные процессы. Что есть "индексирование" у вас ?

Не надо кормить меня рекламными текстами, я прекрасно знаю, что NLI по идее должно отличается от морфологии. :) Вас просили показать разницу между вашей системой и морфологическим расширением, а также прокомментировать некорректно составленое, на мой взгляд, булевское выражение в вашем примере.

itman:
А под публичными коллекциями часом не ромиповская имеется в виду? Так там меньше миллиона урлов.

Есть TREC Terrabyte collection. И у TREC есть весь существенное преимущество над ромипом, результаты тестов публикуются в сравнении всех участников друг с другом.

itman:
Вот неправда, было это в соответствующей теме. И, кстати, вполне себе нормальная скорость поиска.

А вот и правда, по предложеной ссылке сходи, убедись. А что там на левом форуму писалось ... :d

Не говоря уже о том, что публично публикуемые результаты тестов принято проводить на публично доступных корпусах, - это ж коммерческий продукт в конце концов :)

Kryukov:
При прочих равных условиях ...

При каких прочий ? Про скорость поиска-то ни гугу :)

Всего: 218