- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вот неправда, было это в соответствующей теме. И, кстати, вполне себе нормальная скорость поиска.
А вот и правда, по предложеной ссылке сходи, убедись. А что там на левом форуму писалось ... :d
Не говоря уже о том, что публично публикуемые результаты тестов принято проводить на публично доступных корпусах, - это ж коммерческий продукт в конце концов :)
Да я в общем-то разделяю в какой-то степени скептицизм по поводу проанонсированных цЫфр, просто хочу сказать, что это отнюдь не невозможно. А под публичными коллекциями часом не ромиповская имеется в виду? Так там меньше миллиона урлов.
А вот и правда, по предложеной ссылке сходи, убедись. А что там на левом форуму писалось ... :d
Не говоря уже о том, что публично публикуемые результаты тестов принято проводить на публично доступных корпусах, - это ж коммерческий продукт в конце концов :)
При каких прочий ? Про скорость поиска-то ни гугу
Это верно. А было бы интересно...
О моей первой реплике:
Коллеги, я просто призывал не лукавить :) приводя конкретные цифры. Ну посудите сами, если для того, чтобы достичь скорости индексирования в указанную цифру (что вполне реально) мне предложат сначала потратить N часов (нет.... мы тут все математику изучали, N - много.... m часов :) ) для "правильной организации" этих данных, та какова же реальная скорость
А под публичными коллекциями часом не ромиповская имеется в виду? Так там меньше миллиона урлов.
Есть TREC Terrabyte collection. И у TREC есть весь существенное преимущество над ромипом, результаты тестов публикуются в сравнении всех участников друг с другом.
где и как тестировались заявленные на сайте цифры
Базы «11.1», «21.85», «41.17», «83.22» – это англоязычные патенты в формате HTML. Документы физически хранятся в архивных файлах формата ZIP по 5000 – 10000 файлов в одном архиве.
База «132.26» кроме патентов в HTML на «83.22» Гб также содержит информацию из тестовых баз форматов (DOC, RTF, PDF) и тексты «10.7».
Не буду грузить конфу копией всего описания -- оно доступно на сайте и вот прямая ссылка http://www.searchinform.com/site/ru/main/search-inform-indexing-speed-tests.htm
Кстати средний размер html не 30 кб а 10 кб. Но естественно на 'fnfgt индескирования это уже все в зипе например по 5000 файлов.
С прикладной точки зрения ничего не мешает пауку после скачивания страницы ложить ее в архив.
Заявленные скорости безусловно подразумевают средне-нормальные условия. А если довести дло обсурда, то можно создать 100 миллионов файлов по 10 байт (по одному слову в файле) так там только винда эти файлы бцдет сканировать часа 3, хотя инфы то всег 1 гиг
Только сие же уже относится не к индескированию а к кривым рукам прикладного программиста который такое утворил.
http://www.searchinform.com/site/ru/index.htm
Осталась одна маленькая деталька: вот здесь http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740
указана скорость индексирования в 261.80 Kbytes/sec, в вашей шкале это выходит около 920 Гб/час. Очевидно, что собственно "индексированием" у каждой поисковой системы называются совершенно разные процессы. Что есть "индексирование" у вас ?
А это больше похоже на правду.
Осталась одна маленькая деталька: вот здесь http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740
указана скорость индексирования в 261.80 Kbytes/sec, в вашей шкале это выходит около 920 Гб/час. Очевидно, что собственно "индексированием" у каждой поисковой системы называются совершенно разные процессы. Что есть "индексирование" у вас ?
А это больше похоже на правду.
только относится к более древней версии...
Это согласуется с моим опытом на последней версии :-)
Может и стало быстрее, раза в два, только это все равно достаточно скромная скорость. И у DPsearch при его текущей архитектуре как раз то самое пресловутое ограничение в 5-7 мс * N, где N от пяти до десяти. Пока все в кеш влезает, то может скорость и будет 900 гб в час, а как только кешоверфлоу, имеем 0.5 - 1 документа в секунду (или примерно 10кб/c) при почти 100% загрузке проца и диска.
только относится к более древней версии...
Это ни с чем не согласуется. Я про то, что есть на самом деле "индексирование" в этом конретном случае не просто так спрашивал, возьём, к примеру, mp3-файл, его размер 3-4 метра в среднем, id3 заголовок - пара сотен байт, название песни и испольнителя, записываемые в идиекс - пара десятков байт, итак, какой объём проиндексирован ? Ведь считать-то можно по-разному. :) В тех же самых DOC и PDF файлах, на которых проводилось тестирование, запросто может оказаться несколько мегов вложеных изображений, пролетающих мимо индекса.