Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Здравствуйте, с Новым годом и Рождеством!

Приятно видеть столь горячее обсужение в праздники.

Я с интересом читал дискуссию, но тут я вынужден вступить в разговор и сделать пару замечаний по тексту реплики г-на Садовского:

<font face="Verdana" size="2">Originally posted by funsad:
Первые впечатления:
1. До сих пор нет нумерации сайтов в результатах поиска: при открытии нескольких окон с результатами в середине страницы легко "потеряться" (забыть, смотрел это или еще нет).
</font>

Очевидно, тестировался старый поисковик Рамблера, поскольку в новом сайты пронумерованы.

Новый находится по ссылке "Протестируй Рамблер 2.001" в центре страницы, под квадратиками почты и Подарков.

Возможно, ссылка действительно не слишком заметна, это сделано сознательно, чтобы не подавать сразу слишком большой трафик.

<font face="Verdana" size="2"> 3. По поводу "улучшенного качества поиска": по запросу "Харьков" выводятся 4 ссылки, косвенно относящиеся к Харькову, все остальное вообще не имеет отношения к городу, причем из 15 первых ссылок 10 относятся к лекарственным препаратам.
</font>

Та же история - новый Рамблер на самом деле не находит лекарственных средств на первой странце вообще, а только сайты, "косвенно" относящиеся к Харькову.

Про запрос "Садовский" я по той же причине с путаницей версий проверял не стал, а кроме того, я не знаю, какой именно адрес имеет Ваш сайт.

<font face="Verdana" size="2">4. Разочарование от "улучшенной функции поиска похожих документов" наступает, если взглянуть на документы 29 и 31 при поиске по слову "Садовский"
</font>

Ну, функция поиска похожих не совсем про это - она вызывается из результатов поиска ссылкой "найти похожие". Вот она-то и улучшена - в старом Рамблере она выдавала часто полную ерунду.

А дубли в результатах поиска - дело обычное, например, в Яндексе их в несколько раз больше, что является его известной болезнью и что легко проверить.

<font face="Verdana" size="2"> 5. Язык запросов не стал мощнее, то есть мало-мальски серьезный поиск вести Рамблером, как и раньше, затруднительно -- по-прежнему отсутствует даже поиск фразы (цитаты).
</font>

Я уже писал, что язык запросов "умощнять" мы и не будем. Я считаю, что "мощный" язык запросов - признак слабости системы, а развивать поисковик нужно в сторону запроса на естественном языке.

Другое дело, что поиск фраз обязательно нужен и при вводе в строй "координатного" индекса в январе (см. ниже) поиск фраз и чисел мы включим. Просто пока сей момент мы не можем этого сделать.

<font face="Verdana" size="2">Резюме: основной поиск, в первую очередь, я по-прежнему буду проводить с помощью Яндекса и Апорта.
</font>

Вот тут ответить нечего - дело хозяйское.

А вообще нужно иметь в виду, что выставленный поиск - ПРОМЕЖУТОЧНАЯ бета-версия (к слову о тестировании), к которой ещё не подключён новый индекс с координатами слов. То етсь ядро уже работает новое, а индекс - старого формата. Новый индекс потребует ещё двух-трёх недель, как оказалось. У нас возникли проблемы с местом (не хватает каких-то 300-400 Гбайт). То есть примерно к концу января мы выкатим "окончательную" версию 2.0 (скажем, 2.001.2), которая ещё раз даст скачок качества.

С уважением,

Игорь Ашманов, Рамблер.

<font face="Verdana" size="2">Originally posted by AiK:
См. выше моё толкование.</font>

Да, это возможная причина. Спасибо, мы подумаем над этим. Вообще у Апорта тоже есть восстановление текста.

Но вообще может быть много причин в силу того, что ребятам из Яндекса могут быть известны недокум. "фичи" Спайлога. Я уверен, что Аркадий Волож имеет какой-то интерес в Спайлоге, чего он фактически не отрицал при прямых вопросах.

Я не говорю о накрутке, а просто об умении аккуратно пользоваться.

Игорь.

<font face="Verdana" size="2">Originally posted by AiK:
Блин, до меня только что дошло, что эти цифры (особенно обобщённые) всего навсего отображают популярность поисковиков в рунете </font>

Нет, это поверхностное впечатление. Не отражают. Популярность у Рамблера выше просто по числу запросов, сейчас до 500-700 тыс., в полтора раза больше, чем в Яндексе.

Хотя Яндекс пока ищет лучше. Просто бренд очень трудно перешибить.

Они что-то странное отражают. Мы пытались разобраться, но не смогли, и ребята из Спайлога не смогли нам объяснить, хотя очень хотели - в это время они пытались нам продать фирму или хотя бы свою технологию.

Мы постояли в Спайлоге полтора месяца, наши результаты поиска отставали процентов на 5% от всего Яндекса в целом, а при этом подсчёт по реферерам по Спайлогу показывал разницу вдвое.

При этом у нас запросов в день в 1,5-2 раза больше, чем у Яндекса.

Как это понять? Объяснений не дали.

Андреев из Спайлога, когда мы уже вышли из его счётчика, и отказались купить Спайлог, пытался это объяснить тем, что якобы Рамблер плох - в Рамблере не находят, а в Яндексе находят, вот и переходов больше. Но точно так же можно скзать, что количество переходов показывает, что это Яндекс - плохая искалка - действительно, пользователь раз сходил посмотрел - не то, два сходил - не то, а Рамблер прям раз - и нашёл. И переход только один.

То есть такие рассуждения ничего не стоят.

При этом я согласен, что Яндекс пока ищет лучше - я тут приводил цифры сравнения, вопрос не в этом.

Единственное предположение, против которого я не могу сразу ничего возразить - это какое-то совпадение или разница индекса искалки и аудиторий тех, кто поставил счётчик Спайлога.

Яндекс пересекается со Спайлогом значительно больше остальных. Почему, не знаю.

Интересно, что как только в ноябре мы замешали результаты поиска в Тор100 в общие результаты, кривая Рамблера в Спайлоге резко попёрла вверх - и ясно, почему - часто те, кто ставит счётчик Тор100, ставят обычно и Спайлог. Аудитории приблизились, видимо.

При этом посщаемость Р. особенно не выросла.

Но в Спайлоге вообще графики не совпадали с таблицами. Статистика вся разваливалась. Сейчас они графики поспиливали.

Игорь Ашманов, Рамблер.

Насчёт методики - я в общем, не спорю, делайте, как проще. Только нужно всё-таки сказать, что такая упрощённая процедура просто ничего не покажет.

Во-первых, нет условий оценки релевантности.

А одни и те же запросы давать разным людям не получится, дорого по ресурсам.

Во-вторых, дохлые линки и прочие вещи к релевантности не имеют отношения.

Тестирование других свойств поисковой машины нужно и проводить по-другому. Тогда нужно оценивать и "свежесть" ссылок, и полноту (объём), и пересечение с базой других поисковиков и Интернетом в целом, всё это будет ещё более трудно описать и формализовать.

В-третьих, в предлагаемой методике выброшен учёт ранга сайта в результатах, вес запросов и прочее.

В четвёртых, простой подход ничего не говорит об аккумулировании тестов.

Ну и так далее.

То есть, конечно, можно взять методику попроще, понятнее простому читателю форума и так далее, но какова будет ценность результатов - я не знаю. Предложенную "сложную" методику хоть оспорить и верифицировать можно, а предложение Ильи даже нечем оспорить - не за что уцепиться. Ну да, можно так сделать. А можно обматывать экран шнурками и считать число оборотов, считать количество кликов до первой полезной цитаты, и тысячью других простых способов получить какие-то данные, ну и что? Что они будут показывать?

Там ведь появятся проценты типа 0,7 или 0,9, и невежды начнут их понимать именно как проценты, а не как относительные величины. Потом при смене количества линков, состава тестирующих, ещё чего-то проценты резко съедут вверх или вниз, поскольку устойчивость и поведение функции никто не исследовал, и профаны начнут это трактовать пошлыми способами - мол, поисковики ухудшились, улучшились.

Ту методику, что я прислал, мы использовали и используем внутри Рамблера, для себя, даже не для начальства и инвесторов. Если бы можно было сэкономить время, ресурсы и деньги на упрощённой методике, мы бы это сделали обязательно.

Впрочем, это не совсем моё дело, я не хочу ничего навязывать. Методика действительно трудоёмкая.

Игорь Ашманов.

Насчёт Службы имён:

Ну, положим, взять идею не зазорно. А технологии там никакой нет, естественно, просто таблица с колонкой имён и второй колонкой - URLs.

Вообще говоря, нужно заметить, что у МедиаЛингвы есть патент на естественно-языковые имена для Интернет (я, кстати, один из двух его авторов). Поэтому я сразу сказал Юдину (техдиректору Листа), что директор МЛ Олег Серебренников обязательно наедет на Лист.

Другое дело, что патент обычно на самом деле ничего не гарантирует, и ничего не защищает, такие они обычно расплывчатые.

Шансов у Серебренникова мало. Но шум он поднимет, PR себе сделает. Что и требовалось.

Подрбнее см. дискуссию про МЛ на www.algo.ru

Игорь Ашманов.

[This message has been edited by Gray (edited 24-12-2000).]

Originally posted by andre:
Я стабильно получаю по письму в неделю, где народ жалуется на "закрытость" Апорта и Рамблера и отсутствие четкой информации по вопросам индексации. [/QUOTE По поводу скорости обхода в Рамблере см. топик, начатый fargalaxy - "Вопрос к Игорю Ашманову". Я там уже писал о том, как часто Рамблер обходит сайты.
Главная мысль - для быстрого появления в результатах Рамблера нужно зарегистрироваться в первую очередь в Тор100, поскольку мы сейчас "замешиваем" результаты поиска по Тор100 в общие результаты поиска по Интернет.
А Тор100 индексируется раз в день (в отличие от двухнедельного цикла "паука").

Игорь Ашманов, Рамблер.

Даю справку про Мету:

Они лицензировали когда-то поисковик у Апорта, а украинскую морфологию им продал Андрей Коваленко, писавший Апорт, Пропись, потом работавший у меня в МедиаЛингве, а сейчас работающий в Рамблере.

Он имеет собственную морфологическую машинку и торгует ею:

&lt;a href="http://linguist.nm.ru/index.htm"&gt;

Игорь Ашманов, Рамблер.

Originally posted by main_spider:
Я правильно понял, что тестирование открыто для всех?

Хочу предупредить, что по нашему опыту тестирующие не сразу обучаются методике тестирования и делают ошибки.

Наши лингвисты первое время зачастую тестировали не то и не так, так потребовалось несколько циклов обучения и проверки работы.

Поэтому нужно выработать какой-то период "пробного" тестирования, и понять, как проверять, что конкретный участник делает всё правильно.

Иначе пойдёт поток цифр, а насколько правильно и как именно они вычислены, останется за кадром.

Например, я предвижу, что одни будут брать интервалы 1-10, 1-30, 1-50, как и положено, от нуля, а другие, по ошибке, 1-10, 11-30, 31-50 или ещё какие-то. Кто-то домножит на вектор весов, а кто-то забудет. И так далее.

Может быть, Gray, каждому новичку давать небольшое задание, уже сделанное Вами или предыдущими участниками? Или ещё как-то проверять и "сертифицировать" участника тестирования.

Кстати, видимо, стоит часть работы по сведению данных воедино оставить на модератора (раздачу кусков работы, ведение общей таблицы, домножение на веса интервалов, вычисление среднего и так далее).

Ещё один совет - давать куски работы не по одной машине по многу запросов (вертикальный сегмент теста), а по нескольку запросов по всем (горизонтальный сегмент). Иначе, если кто-то понял что-то неправильно, или

имеет специфическое понятие релевантности, получится сильный перекос по одной из машин.

Игорь Ашманов, Рамблер.

Да, насчёт корпорации и просто галактик. Мы планируем в 2001 начать распознавать фамилии, названия фирм, прочее. Тогда мы, возможно, сможем распознать и корпорацию. Вопрос в том, как показывать. Нужно ведь различить "модальность" текста.

Есть и другой способ: у нас уже запрограммирован прототип автоматического представления результатов поиска в виде дерева по темам, то есть что-то вроде иерархического смыслового оглавления.

В таком "оглавлении" галактика и астрономия попадут на другую ветку, нежели корпорации, выглядеть это будет как-то так:

Галактика (астрономия, Юпитер, вакуум, ...)

Галактика (корпорация, ПО, внедрение,...)

И дальше под ссылкой уже список сайтов.

Я надеюсь запустить эту возможность уже в январе.

Игорь Ашманов, Рамблер.

Да, это интересная мысль. Вообще внутри алгоритмов поисковиков уже пытаются определить сайты-хабы, то есть каталоги, и сайты-библиотеки, то есть хранилища авторитетного контента.

Есть автоматические способы, хотя и не очень достоверные. Но это можно решать и проще - интерфейсным способом, как Вы описали. Нужно подумать.

Игорь Ашманов, Рамблер.

Всего: 359