Seventh Son

Рейтинг
141
Регистрация
03.09.2004
Евген:
только оклемался -) я немного перепил.. кровавая мери видно была лишней

Оклемался в полпятого утра? Силён!

Я бы до обеда продрых сперепоя...

forweb:
А я бы всё-таки перенес тему в курилку

Эта тема из курилки переехала сюда. :)

andre:
Я тоже хорошо знаком с Вашей точкой зрения, что Яндекс умный.

Он не просто умный, он и продолжает умнеть, хотя об этом оптимизаторы не любят говорить в слух.

Если вспомнить такие известные факты, как принятие на работу в менеджмент происковых проектов Саши Садовского, участие Яндекса в РОМИП'е, стипендии Яндекса и т.п. - с этим очень сложно не согласиться.

andre:
"Царство пользователя" в поиске, к сожалению, пока не наступило, но проблемы, которые ведут общество именно в том направлении, с каждым годом все острее становятся. Разница в наших с Вами представлениях заключается лишь втом, что Вы верите в то, что улучшение произойдет благодаря новым алгоритмам. Я больше верю в социальные методы,

Я обдумал Вашу мысль о структурированном каталоге запросов и пришел к выводу, что эта мысль на текущий момент развития поиска не окупит вложенные в свою реализацию средства.

Vittorio:
я читаю этот форум гораздо больше чем несколько недель. И Ваше мнение отнюдь не обязательно является правильным.

Очень прискорбно, что Вы не поняли сложенный мной в сообщение смысл, истолковали его по-своему и приняли в штыки. Ну да ладно, это не принципиально.

С уважением,

Сергей Пасечник.

Vittorio:
мне кажется Вы обожествляете сотрудников Яндекса. Во-первых дело не в концентрации мозгов, а как минимум в количестве извилин в этих мозгах.

Почитайте несколько недель этот форум с самого начала. Для Вас очень многое станет понятно.

С уважением,

Сергей Пасечник

Андрей, я уже уже не первый год наблюдаю за тем, что Вы поднимаете эту тему и ведете собственный проект ей посвященный. :)

andre:
Пока нет общепринятой (а не секретной, в головах разработчиков поиска) идеологии того, что должно быть в результатах поиска телега с места не сдвинется.

А общепринятой, точнее общеприемлимой (ими и нами), идеологии нет и не будет, и Вы сами прекрасно понимаете почему.

С уважением,

Сергей Пасечник.

Sim:
Однако, здесь фундаментальная проблема: как оценивать качество поиска? Будучи узким специалистом в какой-то отрасли, я с натяжкой смогу оценить выдачу по тематическому запросу. Но где Яндекс возьмет необходимое число отраслевых специалистов, да еще и неангажированных?
По моим представлениям, петля обратной связи так. (коллективный) Сегалович знает, что по запросу "автомобиль" надо выдавать auto.ru, а по запросу bmw - bmw.ru. и крутит ручку до появления соответствующего результата. Но сколько таких запросов он может контролировать? Сотню? Две? А сколько обрабатывает Яндекс?

Бесспорно, проблема фундаментальна, но Яндекс постоянно ведет работу над методами ее разрешения.

Помнится еще в 2001 году Илья Сегалович раскритиковал методику Ашманова, хотя свою подробно описать не возжелал. Другим примером, подтверждающим работу Яндекса в разработке методик оценки качества поиска, можно привести их участие в Российском семинаре по Оценке Методов Информационного Поиска (РОМИП). Уверен, что сотрудники Яндекса ведут собственные разработки в этой сфере и изучают опыт других инициатив проведения оценки (например TREC, SUMMAC и CLEF).

С уважением,

Сергей Пасечник.

Sim:
А вот это - вряд ли.

Не надо недооценивать Яндекс. У них в руках статистика, логи, 17,4Тб проиндексированных данных, 500 серверов и очень высокая концентрация высококвалифицированных профессионалов на квадратный метр офиса. При желании - смогут замоделировать небольшую выборку и посмотреть, что из этого получится.

Sim:
Не согласен. Много контрпримерв как в ту, так и в другую сторону.

Ради Бога. В любом правиле есть исключения. Только исключения иногда исправляются...

С уважением,

Сергей Пасечник

Sim:
Однако, за линкообмен уже давно пессимизируют, но масштабы этого явления не уменьшаются.

В свое время Илья Сегалович сказал, что при необходимости они с смогут все наши оптимизаторские действия свести на нет. Я ему верю. Но такие действия чреваты бардаком в поиске по очень и очень многим запросам. Асессоры наверняка смогут даже спрогнозировать насколько сильным бардаком это будет.

Да, линкообмен прессингуется, но прессингуется только в жестких его проявлениях aka линкопомойки и т.п. На более мягкие "каталоги" пока смотрят сквозь пальцы. Скупка морд - это уже не просто наглость и очень сильное манипулироване результатами поиска, а фактически плевок в лицо поисковым системам, типа "мы знаем, как Вы работаете и мы можем сами этим сильно управлять". Ответ поисковиков не заставил себя ждать.

С уважением,

Сергей Пасечник

Евген:
Сергей, разве просто _не учет_ ссылок с морд не было бы самым разумным решением? Нет спроса - нет предложения. Самоочистка морд.. Смысл банить? то есть вас забаним, а вас нет?
Причем не учет ссылок с морд разве может как то дестабилизировать алгоритм?

Просто при неучете ссылок с морд вебмастера смогут очень быстро приспособиться. Имхо идея также состоит и в запугивании - чтоб не повадно было продавать/покупать в принципе.

D . G .:
Так ответьте мне пожалуйста на простой русский вопрос - "А НА*УЯ?"
Зачем яндексу перешивать серп? Ну 100 сайтов по кондишам. Ну поменяется выдача.

Говорите, как лицо, которое может постигнуть печальная судьба бана проектов, учитывая Вашу подпись.

Back Door Man:
Дык я тоже не инсайдер, но как у разработчика в прошлом немаленьких БД возникают некоторые решения
Даже если эти поля индексные, то пересчет их сумм на нескольких машинах займет нереально долгое время. Нереальное - в смысле пользователя, который ждет готовый SERP, тут нужны доли секунды.
Алгоритм с дублированием информации имеет два больших минуса:
1. Увеличение объема информации
2. Усложнение алгоритмов пересчета
Но они оба перевешиваются огромным жирным плюсом, который в случае с поисковой системой наиболее важен - быстродействием.
Дисковые массивы дешевеют, а время как всегда дорожает. Не грех и продублировать.

Учитывая Ваш опыт я могу согласиться с предположением, что часть информации может находиться в базе в двух и более экземплярах. Но, конечно, хотелось бы иметь более компетентную информацию или из первоисточников или хотя бы от [бывших] инсайдеров других поисковых систем, как например от Славы Тихонова или Андрея Коваленко.

Хотя 17,4Тб проиндексированной информации + бэкапы + другие службы + [остальное] на 500 серверах...

Back Door Man:
Порефрешил, подождал, еще порефрешил - не поменялось. Привязка меня как пользователя к конкретной машине кластера не поменялась.

Оно меняется.

Вопрос: как Вы определили, что Ваша привязка не поменялась? Снаружи этого не видно, по урлу тоже. Да и привязка идет не к машине кластера, а к фронтальному веб-серверу, к которому Вас привяжет применяемое в Яндексе устройство балансировки нагрузки Cisco 7200 (может сейчас уже что-то посовременнее стоит - не знаю). Именно эти фронтальные сервера отправляют запросы на поисковые кластеры и осуществляют слияние результатов от Веба и от остальных поисковых источников.

Back Door Man:
Ну да, а что Вас смущает? Три поля в таблице: id, кто ссылается, на кого ссылается. Просто как две копейки, и работает быстро

На досуге я подумаю над этим вопросом. Но все равно, разростание базы меня смущает...

Back Door Man:
Имхо, это самый серьезный аргумент. Но и тут может быть своя фишка. При первоначальном запросе "link=" выдается некоторая заранее просчитанная сумма ссылок. Если пользователь тыкает на страницу 2, то идет уже выборка самих ссылок из базы и новым пересчетом их количества (забавно, но без апдейта предыдущего поля).

Здесь имхо дело в другом.

Выдача бэклинков это не столь популярный запрос, чтоб его кэшировать отдельно, хотя может быть я что-то не так понимаю в технологии кеширования Яндекса.

При запросе #link="www.yandex.ru" фронтальные вебсервера направят запрос на кластеры, которые в свою очередь соберут максимально возможное количество бэклинков (с допуском на определенные технические особенности, как неотклик или таймаут сервера). Фронтовики соберут бэки и по определенной последовательности (имхо по порядковым номерам серверов кластеров) выдадут результат с числом ссылок на странице, установленном в Ваших настройках. Если Вы захотите посмотреть вторую страницу результатов - опять фронтовой сервер отправит запросы на кластера с просьбой выдачи. Но тут уже вопрос: как удалить из заново полученной выборки бэков уже показанные? Это будет делать фронтовой сервер, главный метапоисковой сервер на каждом кластере или каждая конечная машина?.. В любом случае - помимо технической возможности неотклика или тауймаута по выборке добавится также возможность таймаута по время фильтра выборки с удалением показанных результатов. Это может стать причиной тренденциально уменьшиющегося количества бэков в зависимости от номера страницы результата выдачи.

С уважением,

Сергей Пасечник

Всего: 3632