Это верно. А было бы интересно...
О моей первой реплике:
Коллеги, я просто призывал не лукавить :) приводя конкретные цифры. Ну посудите сами, если для того, чтобы достичь скорости индексирования в указанную цифру (что вполне реально) мне предложат сначала потратить N часов (нет.... мы тут все математику изучали, N - много.... m часов :) ) для "правильной организации" этих данных, та какова же реальная скорость
itman, Собственно я и спросил, где и как проводилось тестирование :) Я могу заявить и значительно большие цифры. Другой вопрос, что мы тестируем: количество и мощность наших Крэй-ев или что-то, что можно пощупать в реальной жизни. А реальность именно такая, что 30ГБ данных - это миллион документов, а не абстрактный массив нулей и единиц, который читается последовательно и с интерливами и кэшем и прочим :) Не согласны?
На самом деле, это достаточно важная (хоть и не главная) характеристика SE для потенциальных владельцев. При прочих равных условиях я бы предпочел поисковик, который при добавлении к N гигабайт данных еще 30 ГБ через час будет искать по всей моей коллекции. Но меня надо в этом убедить. Возможно, просто автор предложения ошибся конфой, но в любом случае, без аргументации вряд ли что-то можно продать :)
где и как тестировались заявленные на сайте цифры Я привык быстренько все прикидывать в голове и получаю картину:
Дано: скорость индексации 30 ГБ/час. Средний html документ составляет 30 КБ. При заявленной скорости однопоточный индексатор производит индекс 300 документов в секунду т.е. на индексацию одного документа уходит 3 миллисекунды. Вы меня извините, но в среднем только на доступ к любой информации на диске (будь то файл или "сырое" устройство) уходит 7-10 миллисекунд вне зависимости от ОС - это время seek головки считывания (простая физика). А тут надо еще прочитать данные, создать порцию индекса, добавить к ранее полученной (ведь не все же 30 гигов сидят в памяти) и записать на носитель. Не открывая Ваше ноу-хау, на пальцах - как такое возможно? Или может цифры обозначают что-то иное и я не правильно понял?
Пардон за задержку с ответом - отсутствовал. Объем - 200 млн. страниц русскоговорящего интернета (около того - чуть меньше). Как удалось - ну... эта... это распределенные вычисления на 17 серверах (это не есть их основная работа) в несколько ниток на каждом (т.к. основное время - передача по среде). Время одной итерации - около 7 часов. На пятой итерации погрешностью можно пренебречь
Понимаете, пока у крупного поисковика достаточно ресурса справляться в первом приближении с напором растущего материала, разницу между моим и Вашим взглядом на возможные способы построения очередей Вы не увидите.
Зря Вы так, я так например тоже не очень люблю, когда меня сходу отсылают читать что-то на гугле, не давая ссылок и даже не выслушав до конца или обвиняют в обобщениях. И ничего... не обижаюсь. И пользователей я не защищаю ни от кого, а призываю задуматься. Ну да бог с ним, закрыто так закрыто...
Его "замусоленность". Применительно к обсуждаемому вопросу - внешняя ссылочность.
При чем тут моя любовь к обобщениям, я профессионально занимаюсь построением крупных поисковых систем более 10 лет. Цель моих постингов попробовать заставить задуматься других об истинности Ваших утверждений. Сижу в своем кабинете - смотрю на книжную полку. Перед глазами тома Дональда Кнута. Как вы думаете, какой том самый "замусоленный"? Правильно, третий (Сортировка и поиск), а вовсе не первый. Посмотрите на свое издание (надеюсь, оно есть), спросите у других, а какой том у них "замусолен" - ответ будет тотже. А теперь поставьте себя на место поисковика. У Вас в распоряжении миллиарды таких изданий, вы хотите обслужить миллионы пользователей, ваш ресурс очень велик, но конечен, на все не хватит. Сканировать первые тома - можно, но рискуем не добраться до третьего (или добраться, но очень позно - к тому времени читатель уйдет). Какой выход - приоритеты вещам, которые читаются, а не тому кто пишет.
ps. для тех кто серьезно планирует загубить свою жизнь программированием и не имеет указанной книги мой совет, купите как можно быстрее
Я уважаю Ваше мнение, но позволю себе следующее замечание.
Полнота охвата (определение взято у г. Ашманова) действительно является некоей характеристикой SE. Делают ли сейчас ставку на это ведущие игроки этой ниши - наверное да. Однако не до фонатизма :) (мое личное мнение, ничем не подтвержденное). Посудите сами, на 10 млн. документов, отсканированных за день приходится 30-40 тысяч новых сайтов с учетом уже существующих у SE фильтров и эвристик, реально их значительно больше. Так ли важно SE посмотреть все, что у Вас имеется? Захочет ли он этого? Будь я поисковиком - да ни в жисть... :)
А вот ежели несколько посторонних источников скажут мне: "Ну глянь сюда, интересно же.." - то посмотрю. В 50 случаях из 100 плюну и дальше смотреть не стану ибо, бог мой, опять меня (SE) хотят ввести в заблуждение все более изощренными методами.
Просто жизнь устроена так, что люди ради своей сиюминутной выгоды сами подпиливают сук, на котором сидят :)
В данном контексте, ведущие SE могут и пренебречь полнотой охвата, а могут и не пренебречь, в зависимости от своего понимания мирового порядка.
Да знать ничего не знает бот про квери стринг и знать не хочет. Это понятие относится к самому http серверу источнику. И описывет всего-навсего способы получения неких данных для внешнего (относительно программы http-сервера) источника, Что называется Common Gateway Interface (CGI), и опитывт не единственный метод "GET". Оно никак не связано и не может быть связано с логической/физической/любой иной структурой данных на вашем сайте. Равно как и PATH. Именно-по этому боту по-барабану формальное представление и того и другого. Они для него равнозначны.
Если гугль Вам говорит, что он будет обрабатывать Ваш сайт в такой последовательности, то эта последовательность Вам известна. К чему вообще этот сыр-бор
Лог чего Вам показать? Моих ботов или моих серверов? Или что-то еще? За какой период? Что вы там собираетесь увидеть? Я даже могу показать Вам логи Rambler's Top100 1996-2000 годов. Тс-с-с... Я покажу, поверьте...
Что касается второго вопроса, почему Вы решили, что целью любой SE является отсканировать ваш сайт полностью. Это вам этого хочется, но отнють не SE. Может первого взгляда на внутренний документ ему достаточно чтобы понять, что это не является сферой его интересов (линкопомойка, например или SE-конкурент или еще чего)
Ладно, прошу прощения, я выдохся :)