Есил Рамблеровцы будут продолжать затачивать поиск на 100 самых ходовых запросов (см. методику Ашманова), то, боюсь, что нормальные люди, которые не задают идиотские запросы а-ля "секс", будут продолжать использовать Яндекс.
Илья Сегалович,
Яндекс
Александр, если это "несложный запрос", то что же тогда сложный? Уверяю Вас, ни один человек такие запросы не задает, это наш внутренний запрос нужный для поиска (точнее классификации) новостей. И только новостей. Вы ведь наверное его из прямого эфира подсмотрели? Чтобы никого не смущать, постараемся такие запросы из прямого эфира выкинуть.
Вообще, стоит заметить, яндекс внутри себя активно использует язык запросов и он процентов на 30 обширнее, чем официально представленный. Это очень удобно и никому не мешает. Кроме чрезмерно пытливых экспериментаторов.
Этот тег мы не поддержимаем. Зато в планах поддержка расширенного формата robots.txt c выделением основного зеркала, через поддержку директивы Host:
Полезный совет всем.
Пишите аккуратный robots.txt и оставляйте _только_ интересные, содержательные странички, которые легко читаются сами по себе и не требуют контекста.
Например, на этом форуме стоит оставить
/se/cgi-bin/Ultimate.cgi*
- оглавление
/se/ubb/Forum*
- тексты статей
Все остальные странички можно смело запрещать. (всевозможные реплаи и т.п.)
Короче говоря, представьте себе поисковый образ сайта и постройте его, используя robots.txt
Число скачиваемых за один раз страниц сайта ограничено, в-первых, теми ссылками, которые уже есть в базе робота, а, во-вторых существует просто "верхний предел сеанса". Это число относительно стабильно за последний год, но все-таки может поменяться вместе с дисциплиной и приоритетами обхода, поэтому я его не сообщаю.
Чем меньше "мусора" будет грести робот с вашего сайта, тем "лучше" и "чище" ваш сайт будет представлен в индексе Яндекса.
Dmitriy, я на всякий случай Ваше письмо форварднул на webadmin@yandex.ru.
Я так понимаю, что мы не против. И все же напишите на webadmin@yandex.ru, чтобы мы разрешили официально эти сабмиты и зарегистрировали адрес. Дело в том, что массовые сабмиты мы разрешаем только с известных проверенных публичных адресов (например, со своего или ТАУ), чтобы исключить западные добавлялки.
Первая статья - перевод плохой западной компиляци примерно 1996 года выпуска.
Вторая статья сверстана так, что ни один пример не верен. Подробнее - смотри http://www.yandex.ru/info/webmaster2.html после фразы: "При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:"
По поводу форума.
Классичский IR основан на анализе текста документов. "Естественных" документов, а не созданных специально с целью пробраться в первые ряды поисковой выдачи. Понятно, что если в романе Война и Мир "Болконского" заменить на "Путина", никакой, даже семантический анализ не спасет искалку от желания хоршо отранжировать дакой документ по запросу "Путин". Слегка утрирую, конечно. Ну и так далее. 1000 и один сравнительно честный способ спама, которым посвящены другие разделы этого форума, в принципе в классическом IR никогда не рассматривались.
По поводу запросов.
Они должы быть в основном из средней части частотного распределения, как я уже писал. Они должны быть по возможности "однозначными", "понятными", никаких глупостей типа "руки вверх", конечно, быть не должно, и, конечно, "критерий релевантности" должен быть явно задокументирован.
Некторое количество частотных запросов, все-таки взять надо. Но опять же желательно с однозначными "критериями релквантности".
Можно даже подобрать пропорции правильно и даже, может быть, давать частотным запросам повышенный вес.
Но "просто" брать top50 как тут предлагается - это бред.
Илья
Игорь.
С методикой Харина, какой бы она ни была аккуратной и продуманной, наблюдается страное несоотвествие.
С одной сторной она претендует на научность и оперирует такими понятиям, как полнота и точность. В ней, например, призывают игнорировать "мертвые" ссылки и переходить к следующему доукменту. Или даны подробные рекомендации что нужно делать, когда не найдено 100 документов.
С другой стороны предметом исследования предлагается брать Интернет. Грязный и разный. С поисковым "спамом" (привет модераторам ), с миллионом сопутствующих вещей, сопровождающих выдачу любой искалки. Как по Вашей методике, например, оценивать новостную секцию в выдаче яндекса? А ведь она завтра будет другой. Следовательно Ваши оценки в принципе невозбновимы. Или скажем выдачу из каталога, которую Вы, по Вашему же признанию, примешиваете в поиск. А ведь каталог Top100 - это каталог самоввода, то есть по своей сути нестабильный источник. Кстати, как изменится Ваша выдача, если Вы слегка поменяете пропорции "смеси"? Какая тут методика сможет помочь?
Запросы тоже предлагается брать из Интернета - то есть самые заспамленные, самые общие. Кроме всего прочего, к ним не приписаны никакие "критерии релевантности", то есть решение релевантен документ или нет следует принимать самостоятельно. В этом случае велика вероятность вкусовщины.
Если играть по предложенным правилам, надо брать фиксированную коллекцию документов (например, сделать русский TREC) и на ней упражняться. Это действительно отличная методика для заточки алгоритмов ранжирования, основанных на анализе текста страницы. Точка.
Очевидно, что искалки использующие "внетекстовые" критерии, снабжающие свою выдачу черт знает чем, по этой методике оценивать - странная идея.
То, что я предлагаю - это конечно весьма упрощенная вещь, что-то вроде тотализатора, но я и не стесняюсь назвать это "игрушкой", забавой для журналистов. Но к такой сложной многокомпонентной вещи как выдача поисковой системы по другому и подходить, наверное, нельзя. Только укрупненно и упрощенно.
В ней есть 4 важных, простых и понятных вещи, отличающих ее от Вашей
1. учет числа мертвых ссылок
2. учет числа дубликатов. Документ показанный дважды убивает Ваше время. И с этой точки зрения он абсолютно нерелевентен. Да это не соответвует классической IR (как же так, наказывают за "релевантный" документ!) - но я как раз предлагаю отречься от классической IR, которая в чистом виде к интернету не применима. (Весь этот форум - по сути предыдущий тезис в развернутом виде)
3. нейтрализация вкусовщины за счет "содержательных" запросов и отделения процесса поиска от процесса оценки
4. нейтрализация перекосов из-за выбора для анализа "самых популярных" запросов. Еще раз призываю Вас обратить внимание на распределение запросов по частоте. Выбор только самых частых запросов - Ваша серьезная методологическая ошибка.
Во всем остальном методика Харина мне очень нравится. И даже веса (5,4,3,2,1) кажутся вполне разумными.
С уважением,
У меня нет никаких слов.
Я программирую на PC с конца 80-х годов и не помню, чтобы в России конкурирующие программы друг друга удаляли. Да и в мире пожалуй тоже.
Я помню зверскую борьбу 1C с турбобухгалтером, помню как Орфо бодалось с Прописью, Когнитив бился насмерть с Битом, да что там говорить, и у нашей скромной Библии тоже были конкуренты из Донецка. Но деинсталляций не было. Это что-то новое в истории отечественого программирования.
Кстати, эта история не очень похожа на поведение Нетскейпа с Эксплорером - они просто перехватывали друг у друга право на открытие HTML страниц, но самую возможность запуска программы у конкурента никто не отбирал. За такие шутки там наверное под суд отдают.
Самое главное, что это _НИЧЕМ_ не спровоцированный вандализм. Мы с ними совершенно не ссорились, я просто теряюсь в догадках. Может быть люди просто новички в публичном программировании и еще не понимают, что принято делать, а что нет?
Илья Сегалович, Яндекс