Здравствуйте, с Новым годом и Рождеством!
Приятно видеть столь горячее обсужение в праздники.
Я с интересом читал дискуссию, но тут я вынужден вступить в разговор и сделать пару замечаний по тексту реплики г-на Садовского:
Очевидно, тестировался старый поисковик Рамблера, поскольку в новом сайты пронумерованы.
Новый находится по ссылке "Протестируй Рамблер 2.001" в центре страницы, под квадратиками почты и Подарков.
Возможно, ссылка действительно не слишком заметна, это сделано сознательно, чтобы не подавать сразу слишком большой трафик.
Та же история - новый Рамблер на самом деле не находит лекарственных средств на первой странце вообще, а только сайты, "косвенно" относящиеся к Харькову.
Про запрос "Садовский" я по той же причине с путаницей версий проверял не стал, а кроме того, я не знаю, какой именно адрес имеет Ваш сайт.
Ну, функция поиска похожих не совсем про это - она вызывается из результатов поиска ссылкой "найти похожие". Вот она-то и улучшена - в старом Рамблере она выдавала часто полную ерунду.
А дубли в результатах поиска - дело обычное, например, в Яндексе их в несколько раз больше, что является его известной болезнью и что легко проверить.
Я уже писал, что язык запросов "умощнять" мы и не будем. Я считаю, что "мощный" язык запросов - признак слабости системы, а развивать поисковик нужно в сторону запроса на естественном языке.
Другое дело, что поиск фраз обязательно нужен и при вводе в строй "координатного" индекса в январе (см. ниже) поиск фраз и чисел мы включим. Просто пока сей момент мы не можем этого сделать.
Вот тут ответить нечего - дело хозяйское.
А вообще нужно иметь в виду, что выставленный поиск - ПРОМЕЖУТОЧНАЯ бета-версия (к слову о тестировании), к которой ещё не подключён новый индекс с координатами слов. То етсь ядро уже работает новое, а индекс - старого формата. Новый индекс потребует ещё двух-трёх недель, как оказалось. У нас возникли проблемы с местом (не хватает каких-то 300-400 Гбайт). То есть примерно к концу января мы выкатим "окончательную" версию 2.0 (скажем, 2.001.2), которая ещё раз даст скачок качества.
С уважением,
Игорь Ашманов, Рамблер.
Да, это возможная причина. Спасибо, мы подумаем над этим. Вообще у Апорта тоже есть восстановление текста.
Но вообще может быть много причин в силу того, что ребятам из Яндекса могут быть известны недокум. "фичи" Спайлога. Я уверен, что Аркадий Волож имеет какой-то интерес в Спайлоге, чего он фактически не отрицал при прямых вопросах.
Я не говорю о накрутке, а просто об умении аккуратно пользоваться.
Игорь.
Нет, это поверхностное впечатление. Не отражают. Популярность у Рамблера выше просто по числу запросов, сейчас до 500-700 тыс., в полтора раза больше, чем в Яндексе.
Хотя Яндекс пока ищет лучше. Просто бренд очень трудно перешибить.
Они что-то странное отражают. Мы пытались разобраться, но не смогли, и ребята из Спайлога не смогли нам объяснить, хотя очень хотели - в это время они пытались нам продать фирму или хотя бы свою технологию.
Мы постояли в Спайлоге полтора месяца, наши результаты поиска отставали процентов на 5% от всего Яндекса в целом, а при этом подсчёт по реферерам по Спайлогу показывал разницу вдвое.
При этом у нас запросов в день в 1,5-2 раза больше, чем у Яндекса.
Как это понять? Объяснений не дали.
Андреев из Спайлога, когда мы уже вышли из его счётчика, и отказались купить Спайлог, пытался это объяснить тем, что якобы Рамблер плох - в Рамблере не находят, а в Яндексе находят, вот и переходов больше. Но точно так же можно скзать, что количество переходов показывает, что это Яндекс - плохая искалка - действительно, пользователь раз сходил посмотрел - не то, два сходил - не то, а Рамблер прям раз - и нашёл. И переход только один.
То есть такие рассуждения ничего не стоят.
При этом я согласен, что Яндекс пока ищет лучше - я тут приводил цифры сравнения, вопрос не в этом.
Единственное предположение, против которого я не могу сразу ничего возразить - это какое-то совпадение или разница индекса искалки и аудиторий тех, кто поставил счётчик Спайлога.
Яндекс пересекается со Спайлогом значительно больше остальных. Почему, не знаю.
Интересно, что как только в ноябре мы замешали результаты поиска в Тор100 в общие результаты, кривая Рамблера в Спайлоге резко попёрла вверх - и ясно, почему - часто те, кто ставит счётчик Тор100, ставят обычно и Спайлог. Аудитории приблизились, видимо.
При этом посщаемость Р. особенно не выросла.
Но в Спайлоге вообще графики не совпадали с таблицами. Статистика вся разваливалась. Сейчас они графики поспиливали.
Насчёт методики - я в общем, не спорю, делайте, как проще. Только нужно всё-таки сказать, что такая упрощённая процедура просто ничего не покажет.
Во-первых, нет условий оценки релевантности.
А одни и те же запросы давать разным людям не получится, дорого по ресурсам.
Во-вторых, дохлые линки и прочие вещи к релевантности не имеют отношения.
Тестирование других свойств поисковой машины нужно и проводить по-другому. Тогда нужно оценивать и "свежесть" ссылок, и полноту (объём), и пересечение с базой других поисковиков и Интернетом в целом, всё это будет ещё более трудно описать и формализовать.
В-третьих, в предлагаемой методике выброшен учёт ранга сайта в результатах, вес запросов и прочее.
В четвёртых, простой подход ничего не говорит об аккумулировании тестов.
Ну и так далее.
То есть, конечно, можно взять методику попроще, понятнее простому читателю форума и так далее, но какова будет ценность результатов - я не знаю. Предложенную "сложную" методику хоть оспорить и верифицировать можно, а предложение Ильи даже нечем оспорить - не за что уцепиться. Ну да, можно так сделать. А можно обматывать экран шнурками и считать число оборотов, считать количество кликов до первой полезной цитаты, и тысячью других простых способов получить какие-то данные, ну и что? Что они будут показывать?
Там ведь появятся проценты типа 0,7 или 0,9, и невежды начнут их понимать именно как проценты, а не как относительные величины. Потом при смене количества линков, состава тестирующих, ещё чего-то проценты резко съедут вверх или вниз, поскольку устойчивость и поведение функции никто не исследовал, и профаны начнут это трактовать пошлыми способами - мол, поисковики ухудшились, улучшились.
Ту методику, что я прислал, мы использовали и используем внутри Рамблера, для себя, даже не для начальства и инвесторов. Если бы можно было сэкономить время, ресурсы и деньги на упрощённой методике, мы бы это сделали обязательно.
Впрочем, это не совсем моё дело, я не хочу ничего навязывать. Методика действительно трудоёмкая.
Игорь Ашманов.
Насчёт Службы имён:
Ну, положим, взять идею не зазорно. А технологии там никакой нет, естественно, просто таблица с колонкой имён и второй колонкой - URLs.
Вообще говоря, нужно заметить, что у МедиаЛингвы есть патент на естественно-языковые имена для Интернет (я, кстати, один из двух его авторов). Поэтому я сразу сказал Юдину (техдиректору Листа), что директор МЛ Олег Серебренников обязательно наедет на Лист.
Другое дело, что патент обычно на самом деле ничего не гарантирует, и ничего не защищает, такие они обычно расплывчатые.
Шансов у Серебренникова мало. Но шум он поднимет, PR себе сделает. Что и требовалось.
Подрбнее см. дискуссию про МЛ на www.algo.ru
[This message has been edited by Gray (edited 24-12-2000).]
Даю справку про Мету:
Они лицензировали когда-то поисковик у Апорта, а украинскую морфологию им продал Андрей Коваленко, писавший Апорт, Пропись, потом работавший у меня в МедиаЛингве, а сейчас работающий в Рамблере.
Он имеет собственную морфологическую машинку и торгует ею:
<a href="http://linguist.nm.ru/index.htm">
Хочу предупредить, что по нашему опыту тестирующие не сразу обучаются методике тестирования и делают ошибки.
Наши лингвисты первое время зачастую тестировали не то и не так, так потребовалось несколько циклов обучения и проверки работы.
Поэтому нужно выработать какой-то период "пробного" тестирования, и понять, как проверять, что конкретный участник делает всё правильно.
Иначе пойдёт поток цифр, а насколько правильно и как именно они вычислены, останется за кадром.
Например, я предвижу, что одни будут брать интервалы 1-10, 1-30, 1-50, как и положено, от нуля, а другие, по ошибке, 1-10, 11-30, 31-50 или ещё какие-то. Кто-то домножит на вектор весов, а кто-то забудет. И так далее.
Может быть, Gray, каждому новичку давать небольшое задание, уже сделанное Вами или предыдущими участниками? Или ещё как-то проверять и "сертифицировать" участника тестирования.
Кстати, видимо, стоит часть работы по сведению данных воедино оставить на модератора (раздачу кусков работы, ведение общей таблицы, домножение на веса интервалов, вычисление среднего и так далее).
Ещё один совет - давать куски работы не по одной машине по многу запросов (вертикальный сегмент теста), а по нескольку запросов по всем (горизонтальный сегмент). Иначе, если кто-то понял что-то неправильно, или
имеет специфическое понятие релевантности, получится сильный перекос по одной из машин.
Да, насчёт корпорации и просто галактик. Мы планируем в 2001 начать распознавать фамилии, названия фирм, прочее. Тогда мы, возможно, сможем распознать и корпорацию. Вопрос в том, как показывать. Нужно ведь различить "модальность" текста.
Есть и другой способ: у нас уже запрограммирован прототип автоматического представления результатов поиска в виде дерева по темам, то есть что-то вроде иерархического смыслового оглавления.
В таком "оглавлении" галактика и астрономия попадут на другую ветку, нежели корпорации, выглядеть это будет как-то так:
Галактика (астрономия, Юпитер, вакуум, ...)
Галактика (корпорация, ПО, внедрение,...)
И дальше под ссылкой уже список сайтов.
Я надеюсь запустить эту возможность уже в январе.
Да, это интересная мысль. Вообще внутри алгоритмов поисковиков уже пытаются определить сайты-хабы, то есть каталоги, и сайты-библиотеки, то есть хранилища авторитетного контента.
Есть автоматические способы, хотя и не очень достоверные. Но это можно решать и проще - интерфейсным способом, как Вы описали. Нужно подумать.