Kryukov

Рейтинг

Регистрация

11.11.2005

26 апреля 2006, 22:08

Zute:
При каких прочий ? Про скорость поиска-то ни гугу

Это верно. А было бы интересно...

О моей первой реплике:

Коллеги, я просто призывал не лукавить :) приводя конкретные цифры. Ну посудите сами, если для того, чтобы достичь скорости индексирования в указанную цифру (что вполне реально) мне предложат сначала потратить N часов (нет.... мы тут все математику изучали, N - много.... m часов :) ) для "правильной организации" этих данных, та какова же реальная скорость

Поисковик для локальной сети

26 апреля 2006, 21:19

itman, Собственно я и спросил, где и как проводилось тестирование :) Я могу заявить и значительно большие цифры. Другой вопрос, что мы тестируем: количество и мощность наших Крэй-ев или что-то, что можно пощупать в реальной жизни. А реальность именно такая, что 30ГБ данных - это миллион документов, а не абстрактный массив нулей и единиц, который читается последовательно и с интерливами и кэшем и прочим :) Не согласны?

Поисковик для локальной сети

26 апреля 2006, 20:43

Zute:
Другой вопрос: а зачем расхваливать скорость индексирования, если юзеры поисковика будут видеть только скорость поиска ?

На самом деле, это достаточно важная (хоть и не главная) характеристика SE для потенциальных владельцев. При прочих равных условиях я бы предпочел поисковик, который при добавлении к N гигабайт данных еще 30 ГБ через час будет искать по всей моей коллекции. Но меня надо в этом убедить. Возможно, просто автор предложения ошибся конфой, но в любом случае, без аргументации вряд ли что-то можно продать :)

Поисковик для локальной сети

26 апреля 2006, 19:41

Leom:
Если ищете не бесплатное, то данное решение будет для вас оптимальным

где и как тестировались заявленные на сайте цифры Я привык быстренько все прикидывать в голове и получаю картину:

Дано: скорость индексации 30 ГБ/час. Средний html документ составляет 30 КБ. При заявленной скорости однопоточный индексатор производит индекс 300 документов в секунду т.е. на индексацию одного документа уходит 3 миллисекунды. Вы меня извините, но в среднем только на доступ к любой информации на диске (будь то файл или "сырое" устройство) уходит 7-10 миллисекунд вне зависимости от ОС - это время seek головки считывания (простая физика). А тут надо еще прочитать данные, создать порцию индекса, добавить к ранее полученной (ведь не все же 30 гигов сидят в памяти) и записать на носитель. Не открывая Ваше ноу-хау, на пальцах - как такое возможно? Или может цифры обозначают что-то иное и я не правильно понял?

А хочется знать ваше мнение?

25 апреля 2006, 18:10

Eugen:
Krukov,

А какие мощности используются для вычисления PR? PageRank достаточно сложен (в плане требуемых вычислительных мощностей), поэтому немногие решаются его применять. Как вам удалось? :) Хотя перед этим надо задать еще вопрос, для какого размера индекса вы его считаете?

Пардон за задержку с ответом - отсутствовал. Объем - 200 млн. страниц русскоговорящего интернета (около того - чуть меньше). Как удалось - ну... эта... это распределенные вычисления на 17 серверах (это не есть их основная работа) в несколько ниток на каждом (т.к. основное время - передача по среде). Время одной итерации - около 7 часов. На пятой итерации погрешностью можно пренебречь

Какой URL поисковикам подсунуть?

13 апреля 2006, 13:21

lagif:
Kryukov, крайне неуверена, что сканирование сайта начинается с самой "цитируемой" страницы. Опять же, замусоленный том будет на последней полке библиотеки, в которой не меньше полусотни таких же ценных книг. С другой стороны - ценной книге сложно стать "замусоленной" и при этом не проиндексированной хотя бы один раз ранее.

Понимаете, пока у крупного поисковика достаточно ресурса справляться в первом приближении с напором растущего материала, разницу между моим и Вашим взглядом на возможные способы построения очередей Вы не увидите.

lagif:

Впрочем, спорить и защищать от меня бедных юзеров не стоит. Спор закрыт.
p.s. Не люблю, когда кто-то начинает подавлять меня авторитетом, так что про 10 лет и прочее - это не стоило.

Зря Вы так, я так например тоже не очень люблю, когда меня сходу отсылают читать что-то на гугле, не давая ссылок и даже не выслушав до конца или обвиняют в обобщениях. И ничего... не обижаюсь. И пользователей я не защищаю ни от кого, а призываю задуматься. Ну да бог с ним, закрыто так закрыто...

Какой URL поисковикам подсунуть?

13 апреля 2006, 10:36

lagif:
Kryukov, кто скажет поисковику, что третий том - лучше?

Его "замусоленность". Применительно к обсуждаемому вопросу - внешняя ссылочность.

Какой URL поисковикам подсунуть?

13 апреля 2006, 08:51

lagif:
Специально для любящего обобщать господина Kryukov, : я никогда не ручалась за последовательность чтения. После прочтения заглавной страницы робот может читать новоприобретенные урлы по одному ему известным алгоритмам, даже - порождая кучу пауков, которые будут лазить по дереву ссылок рекурсивно.

При чем тут моя любовь к обобщениям, я профессионально занимаюсь построением крупных поисковых систем более 10 лет. Цель моих постингов попробовать заставить задуматься других об истинности Ваших утверждений. Сижу в своем кабинете - смотрю на книжную полку. Перед глазами тома Дональда Кнута. Как вы думаете, какой том самый "замусоленный"? Правильно, третий (Сортировка и поиск), а вовсе не первый. Посмотрите на свое издание (надеюсь, оно есть), спросите у других, а какой том у них "замусолен" - ответ будет тотже. А теперь поставьте себя на место поисковика. У Вас в распоряжении миллиарды таких изданий, вы хотите обслужить миллионы пользователей, ваш ресурс очень велик, но конечен, на все не хватит. Сканировать первые тома - можно, но рискуем не добраться до третьего (или добраться, но очень позно - к тому времени читатель уйдет). Какой выход - приоритеты вещам, которые читаются, а не тому кто пишет.

ps. для тех кто серьезно планирует загубить свою жизнь программированием и не имеет указанной книги мой совет, купите как можно быстрее

Какой URL поисковикам подсунуть?

12 апреля 2006, 15:54

itman:
Разница есть, однозанчно, подмножество достижимых страниц может отличаться

Я уважаю Ваше мнение, но позволю себе следующее замечание.

Полнота охвата (определение взято у г. Ашманова) действительно является некоей характеристикой SE. Делают ли сейчас ставку на это ведущие игроки этой ниши - наверное да. Однако не до фонатизма :) (мое личное мнение, ничем не подтвержденное). Посудите сами, на 10 млн. документов, отсканированных за день приходится 30-40 тысяч новых сайтов с учетом уже существующих у SE фильтров и эвристик, реально их значительно больше. Так ли важно SE посмотреть все, что у Вас имеется? Захочет ли он этого? Будь я поисковиком - да ни в жисть... :)

А вот ежели несколько посторонних источников скажут мне: "Ну глянь сюда, интересно же.." - то посмотрю. В 50 случаях из 100 плюну и дальше смотреть не стану ибо, бог мой, опять меня (SE) хотят ввести в заблуждение все более изощренными методами.

Просто жизнь устроена так, что люди ради своей сиюминутной выгоды сами подпиливают сук, на котором сидят :)

В данном контексте, ведущие SE могут и пренебречь полнотой охвата, а могут и не пренебречь, в зависимости от своего понимания мирового порядка.

Какой URL поисковикам подсунуть?

12 апреля 2006, 12:43

lagif:
Kryukov,
Немного не поняла вопрос. Покажите мне два примера одной ссылки, в которой гугль-бот может спутать динамическую QUERY_STRING с подкаталогом.

Да знать ничего не знает бот про квери стринг и знать не хочет. Это понятие относится к самому http серверу источнику. И описывет всего-навсего способы получения неких данных для внешнего (относительно программы http-сервера) источника, Что называется Common Gateway Interface (CGI), и опитывт не единственный метод "GET". Оно никак не связано и не может быть связано с логической/физической/любой иной структурой данных на вашем сайте. Равно как и PATH. Именно-по этому боту по-барабану формальное представление и того и другого. Они для него равнозначны.

lagif:

Насчет же опыта:
Читайте официальные доки, скажем, гугля. Что еще могу Вам сказать?.. ссылку, надеюсь, найдете...

Если гугль Вам говорит, что он будет обрабатывать Ваш сайт в такой последовательности, то эта последовательность Вам известна. К чему вообще этот сыр-бор

lagif:

Между прочим, просьбу показать конкретный лог Вы проигнорировали.
Мне же достаточно того, что мои логи мне показывают.
Еще вопрос будет: как может бот найти все страницы сайта, если начинает не с начала?

p.s. В любом контексте Бог только Бог. :)

Лог чего Вам показать? Моих ботов или моих серверов? Или что-то еще? За какой период? Что вы там собираетесь увидеть? Я даже могу показать Вам логи Rambler's Top100 1996-2000 годов. Тс-с-с... Я покажу, поверьте...

Что касается второго вопроса, почему Вы решили, что целью любой SE является отсканировать ваш сайт полностью. Это вам этого хочется, но отнють не SE. Может первого взгляда на внутренний документ ему достаточно чтобы понять, что это не является сферой его интересов (линкопомойка, например или SE-конкурент или еще чего)

Ладно, прошу прощения, я выдохся :)

1 2 3 4 5 6

Всего: 59

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все что нужно знать о DDоS-атаках грамотному менеджеру

Kryukov