Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Насчёт жареного петуха:

петух клюнул раньше, когда в Рамблере продали контрольный пакет инвесторам в прошлом декабре. Тут-то и наняли в Рамблер новую команду, которая принялась разрабатывать новое поисковое ядро и другие штуки.

Команду эту из 15-ти человек привёл я, из компании МедиаЛингва, где я был гендиректором и акционером.

Ранее мы занимались искусственным интеллектом, электронными словари, машинным переводом, поисковиками, прочим. В частности, когда ваш Word (если пользуетесь) подчёркивает красной волнистой чертой ошибки в русском тексте, это работает ОРФО - наших рук дело. Впрочем, как и Апорт!, Пропись, Контекст, Мультилекс, Следопыт, Либретто, Русская служба имён и пр. Может быть, какие-то из этих продуктов вам известны - ну, Апорт-то точно.

Но: новое ядро разработать непросто - оно должно заложить базу на ближайшие два года, самое меньшее, и выдержать рост нагрузки и объёма в 4 раза минимум. Сейчас его делает 7-8 человек программистов и ещё лингвисты. Сейчас оно почти готово, в декабре надеемся "выкатить", дальше новые бантики, фичи и прибамбасы будем выпускать по нескольку в месяц.

Главное направление - релевантность, распознавание темы документа, запрос на ЕЯ, прочий ИИ. Уже сейчас в промежуточной версии по релевантности мы приблизились к Яндексу и чуть больше отстаём от Апорта (по нашим внутренним тестам условная релевантность поиска у Р., Я., А. соответственно 0.90, 0.94, 0.99. Это относительные цифры, несколько завышенные в силу используемой методики, но завышенные равномерно и по ним можно судить о росте - в январе 2000 было 0.65, 0.86, 0.95 соответственно).

С новым ядром надеемся догнать и перегнать.

Игорь Ашманов.

Я уже ответил один раз на этот вопрос, но почему-то реплику не опубликовали. Может быть, технический сбой.

Коротко ещё раз:

а) язык запросв действительно почти никому не нужен. Используется поисковиками в основном для маркетинга - "у нас мощный язык запросов". Означает, что не реализован запрос на естественном языке.

Редкие склонные к программированию пользователи готовы использовать, но ради них как-то особенно стараться невозможно - в коммерческой ситуации.

б) В Рамблере формальный язык запросов есть и в новой версии мы его как-то поддержим - опять-таки из маркетинговых соображений, чтобы конкуренты и аффилиированные журналисты не глумились.

Поскольку теперь у нас будет координатная информация, мы введём в него поиск точных фраз и оператор близости. В декабре-январе.

Ну "умощнять" не будем. Время формальных запросов уходит.

Игорь Ашманов, Рамблер.

1. Рамблер - похоже, единственный поисковик, который действительно "подбирает" такие зеркала в одну статью со списком URLs в конце. Делается это на основе сигнатуры, вычисляемой для сайтов, по которой дубли склеиваются.

Иногда подбирается до 100 зеркал документов (но показывается не более 16), вы это легко можете увидеть в резульататх поиска.

Но, к сожалению, пока сигнатура эта жёсткая и малейшее отличие - текстовый баннер, битые спец-символы - приводит к тому, что документ не считается совпадающим. Возникает "дубль".

Мы сейчас разрабатываем нечёткую сигнатуру, функция близости в которой будет гладкой кривой, а не "палкой", так что близкие по смыслу (то есть по содержанию) документы она будет склеивать, а далёкие - разводить. Это штука непростая, искусственный интеллект, так сказать. От неё недалеко до автоматической классификации документов и так далее. В начале 2001 подключим, я надеюсь.

2. "Подборка" зеркал, к сожалению, логически конфликтует с подборкой документов по сайтам, как в Яндексе. Это перпендикулярные способы показа результатов. Поэтому, видимо, Яндекс и использует только один из них.

1. Насколько я понимаю, это апокриф. В действительности был эксперимент Шипилова из КомпьюТерры, по существу провалившийся. Он заранее сказал всем "гоп", выбрал малоинтересную категорию "Технологии", где хитов ничтожно мало и показал в своей статье снимок экрана на 0-55 ночи в выходные, где его пустой сайт был шестым (с 37 хостами, кажется). Для того, чтобы этого добиться, он открутил сколько-то баннеров. Ну, и в чём здесь фокус? Из этих 37, возможно, 50% были привлечённые им знакомые, остальные - бедные обманутые пользователи. Им, наверно, показали голую девицу, а потом - наоборот.

Если бы этот сайт был ещё сколько-нибудь виден утром, Шипилов бы поместил утренний скриншот, естественно.

Вообще раскрутить пустую страницу можно гораздо круче, купив exit-traffic у Порт.ру (читайте конференцию banners). Или заплатив клик-клубу. Вопрос денег.

Но в начальные двадцатки или пятидесятки Тор100 он всё равно не попадёт или не удержится. Дороговато будет поддерживать.

2. Действительно, показ страниц из Тор100 в поиске создаёт положительную обратную связь. Но она и так положительнее некуда в самом Тор100. Потому он и живет, что генерит трафик в 250-300 тысяч кликов на участников ежедневно. И в основном в 1-2-й двадцатке.

Что касается прокси, то у нас есть чёрный список примерно на 10,000 штук. Но он, естественно, неполон. Модератор пополняет. Есть и автоматические детекторы накруток.

А вообще осбуждать Тор100 можно бесконечно. У нас трафик в сотни писем в день - вопросы, доносы, пожелания.

Игорь Ашманов, Рамблер.

Нет, в Рамблере не стоит выше самая посещаемая страница.

В Рамблере стоит выше самая релевантная, как и положено. Просто в старом ядре релевантность страдает, поэтому мы в качестве промежуточного решения добавили поиск по Тор100, с ранжированием по релевантности, во-первых, плюс по посещаемости (хостам), во-вторых. Некоторое количество таких результатов замешиваются в общие результаты поиска.

Это фактически поиск по каталогу.

Поиск по каталогу, как известно, используют и Яндекс и Апорт, и прочие. Просто потому, что аннотации в каталогах заведомо релевантны и поиск по ним выше качеством. Если каталог имеет хорошее покрытие, это даёт сильное улучшение. Наш каталог - большой, а главное, живой. В нём 55,0000 живых сайтов и индексирование происходит каждый день.

Но! Только первых страниц.

В начале декабря мы начнём обсчитывать в Тор100 все страницы.

Что касается совета, как зарегистрироваться -я дал совет в первую очередь зарегистрироваться в Тор100 для того, чтобы сразу оказаться заиндексированным и видимым в результатах поиска. А все страницы сайта будут заиндексированы пауком за довольно долгое время, сейчас это минимум две недели, к сожалению.

Процедуру регистрации и обхода мы тоже переделываем.

А для регистрации собственно в пауке достаточно дать URL головной страницы.

Игорь Ашманов, Рамблер.

Здравствуйте!

Что будет в Рамблере: в декабре мы "выкатим" новое ядро.

В первую очередь оно будет иметь координатный поиск, то есть будет учитывать расположение слов относительно друг друга и всего текста. Главные проблемы со старым ядром были именно в том, что в индексе не хранилось сведений о координате (номере) слова в тексте (это дополнительное, довольно тяжёлое измерение индекса).

Мы почти сразу подключим хорошее ранжирование, распознавание слов во всех формах, собирание документов в сайты, подавление дублей, цитирование текста с подсветкой, кое-что ещё.

В январе-феврале добавятся всякие интеллектуальные штучки, в том числе подавление мусорных сайтов (всяких doorway в терминологии этого форума), распознавание темы документа и так далее.

Чего пока не будет:

в декабре не будет для ранжирования использоваться граф ссылок (так называемый PageRank в Google). В первом квартале мы его подключим.

Что до Индекса цитирования - это довольно странная идея Яндекса, требующая расстановки специальных счётчиков, вряд ли мы ею воспользуемся.

У нас есть свой счётчик Тор100, гораздо более распространённый, он показывает популярность сайта не у держателей сайтов (цитирование - это ведь аналог PageRank), а упользователей; его для ранжирования мы использовать, конечно, будем - уже используем.

В декабре мы можем не успеть подключить запрос на естественном языке.

Игорь Ашманов, Рамблер.

Я не рассматриваю баннеры серьёзно, я стараюсь их вообще не рассматривать, просто использование порнобаннеров и особенно из Интеррекламы портит светлый образ вашего сайта. Как будто вашей аудитории нужен именно такой сильно таргетированный показ - прямо сейчас над формой ответа висит призыв посмотреть Бритни Спирс в раздевалке. Вот сейчас всё брошу и пойду смотреть!

А вообще поговорить можно, спрашивайте. Только я могу пропадать на часы или дни, жизнь в Рамблере бурная.

Игорь Ашманов, Рамблер.

Я зайти-то на форум зашёл, но есть несколько обстоятельств, препятствующих нашему активному участию:

1. Баннеры из LBE типа "Девочки для взрослых". Лично мне не очень нравится видеть цитаты из меня любимого на этом фоне, во-первых, и вообще такие баннеры сразу же вызывают сомнение в серьёзности ресурса, во-вторых.

Причём, я думаю, Вы реально на них не зарабатываете - ну сколько там будет показано? Я думаю, стоит сменить баннерокрутилку или найти своих клиентов-рекламодателей. В общем, это Ваше дело, но у меня первое впечатление было не очень.

2. Очень мало участников. Конечно, если здесь будут отвечать на вопросы люди из Рамблера, это поможет Вам "раскрутить" форум, но чем это компенсирует затраченное время нам? Ведь аудитория пока состоит из пяти-десяти человек, по всей видимости. Хотя Рамблеру реклама не нужна, рассказывать про технологии и перспективы российскому народу мы можем. Но даже на семинаре в обычном зале или на выставке должно быть несколько десятков человек, чтобы это имело смысл.

Я готов пообщаться ещё какое-то время, но долго не смогу, видимо.

Игорь Ашманов,

директор по технологиям, АО Рамблер

Сейчас в Рамблере этот запрос работает плохо. Соответствующая кнопка в "расширенном поиске" есть, но работает так себе.

В декабре мы запустим новое поисковое ядро Рамблера, с повышенной релевантностью и пр., а в январе включим в него поиск по DNS-адресам.

Игорь Ашманов, Рамблер.

Всего: 359