Оклемался в полпятого утра? Силён!
Я бы до обеда продрых сперепоя...
Эта тема из курилки переехала сюда. :)
Он не просто умный, он и продолжает умнеть, хотя об этом оптимизаторы не любят говорить в слух.
Если вспомнить такие известные факты, как принятие на работу в менеджмент происковых проектов Саши Садовского, участие Яндекса в РОМИП'е, стипендии Яндекса и т.п. - с этим очень сложно не согласиться.
Я обдумал Вашу мысль о структурированном каталоге запросов и пришел к выводу, что эта мысль на текущий момент развития поиска не окупит вложенные в свою реализацию средства.
Очень прискорбно, что Вы не поняли сложенный мной в сообщение смысл, истолковали его по-своему и приняли в штыки. Ну да ладно, это не принципиально.
С уважением,
Сергей Пасечник.
Почитайте несколько недель этот форум с самого начала. Для Вас очень многое станет понятно.
Сергей Пасечник
Андрей, я уже уже не первый год наблюдаю за тем, что Вы поднимаете эту тему и ведете собственный проект ей посвященный. :)
А общепринятой, точнее общеприемлимой (ими и нами), идеологии нет и не будет, и Вы сами прекрасно понимаете почему.
Бесспорно, проблема фундаментальна, но Яндекс постоянно ведет работу над методами ее разрешения.
Помнится еще в 2001 году Илья Сегалович раскритиковал методику Ашманова, хотя свою подробно описать не возжелал. Другим примером, подтверждающим работу Яндекса в разработке методик оценки качества поиска, можно привести их участие в Российском семинаре по Оценке Методов Информационного Поиска (РОМИП). Уверен, что сотрудники Яндекса ведут собственные разработки в этой сфере и изучают опыт других инициатив проведения оценки (например TREC, SUMMAC и CLEF).
Не надо недооценивать Яндекс. У них в руках статистика, логи, 17,4Тб проиндексированных данных, 500 серверов и очень высокая концентрация высококвалифицированных профессионалов на квадратный метр офиса. При желании - смогут замоделировать небольшую выборку и посмотреть, что из этого получится.
Ради Бога. В любом правиле есть исключения. Только исключения иногда исправляются...
В свое время Илья Сегалович сказал, что при необходимости они с смогут все наши оптимизаторские действия свести на нет. Я ему верю. Но такие действия чреваты бардаком в поиске по очень и очень многим запросам. Асессоры наверняка смогут даже спрогнозировать насколько сильным бардаком это будет.
iseg:"Мы несем ответственность за качество поиска". ((c) iseg)
Да, линкообмен прессингуется, но прессингуется только в жестких его проявлениях aka линкопомойки и т.п. На более мягкие "каталоги" пока смотрят сквозь пальцы. Скупка морд - это уже не просто наглость и очень сильное манипулироване результатами поиска, а фактически плевок в лицо поисковым системам, типа "мы знаем, как Вы работаете и мы можем сами этим сильно управлять". Ответ поисковиков не заставил себя ждать.
Просто при неучете ссылок с морд вебмастера смогут очень быстро приспособиться. Имхо идея также состоит и в запугивании - чтоб не повадно было продавать/покупать в принципе.
Говорите, как лицо, которое может постигнуть печальная судьба бана проектов, учитывая Вашу подпись.
Учитывая Ваш опыт я могу согласиться с предположением, что часть информации может находиться в базе в двух и более экземплярах. Но, конечно, хотелось бы иметь более компетентную информацию или из первоисточников или хотя бы от [бывших] инсайдеров других поисковых систем, как например от Славы Тихонова или Андрея Коваленко.
Хотя 17,4Тб проиндексированной информации + бэкапы + другие службы + [остальное] на 500 серверах...
Оно меняется.
Вопрос: как Вы определили, что Ваша привязка не поменялась? Снаружи этого не видно, по урлу тоже. Да и привязка идет не к машине кластера, а к фронтальному веб-серверу, к которому Вас привяжет применяемое в Яндексе устройство балансировки нагрузки Cisco 7200 (может сейчас уже что-то посовременнее стоит - не знаю). Именно эти фронтальные сервера отправляют запросы на поисковые кластеры и осуществляют слияние результатов от Веба и от остальных поисковых источников.
На досуге я подумаю над этим вопросом. Но все равно, разростание базы меня смущает...
Здесь имхо дело в другом.
Выдача бэклинков это не столь популярный запрос, чтоб его кэшировать отдельно, хотя может быть я что-то не так понимаю в технологии кеширования Яндекса.
При запросе #link="www.yandex.ru" фронтальные вебсервера направят запрос на кластеры, которые в свою очередь соберут максимально возможное количество бэклинков (с допуском на определенные технические особенности, как неотклик или таймаут сервера). Фронтовики соберут бэки и по определенной последовательности (имхо по порядковым номерам серверов кластеров) выдадут результат с числом ссылок на странице, установленном в Ваших настройках. Если Вы захотите посмотреть вторую страницу результатов - опять фронтовой сервер отправит запросы на кластера с просьбой выдачи. Но тут уже вопрос: как удалить из заново полученной выборки бэков уже показанные? Это будет делать фронтовой сервер, главный метапоисковой сервер на каждом кластере или каждая конечная машина?.. В любом случае - помимо технической возможности неотклика или тауймаута по выборке добавится также возможность таймаута по время фильтра выборки с удалением показанных результатов. Это может стать причиной тренденциально уменьшиющегося количества бэков в зависимости от номера страницы результата выдачи.