А такое поведение поисковика вполне возможно и логично. Только чтобы проверить, нужно создать две идентичных тестовых страницы с одним лишь отличием в тэгах ALT. Если кому-то не лень, может проверить...
Это элементарно проверить. Достаточно взять любой сайт, проиндексированный поисковиком, и содержащий необычную подпись к любой из картинок, и запустить поиск по фразе из этой подписи. Нашло -- значит ALT учитывается как обычный текст, нет -- ALT учитывается только при поиске картинок.
Мои эксперименты показывают, что Яндекс и Апорт не используют ALT в обычном поиске; Rambler, скорее всего, тоже -- для него сложнее определить данный факт, так как в этой системе нет поиска по фразам.
С уважением,
Александр Садовский.
Таблицы нормально интерпретируются и содержание извлекается. При этом, правда, чем больше вспомогательного кода, тем больше "размывается" содержание, т.е. вес каждого ключевого слова снижается. Это легко заметить по документам, копии которых гуляют по сети. Я не раз замечал, что ряд моих рассказов на других сайтах, скопированных слово в слово, рейтингуются выше чем у те же рассказы у меня на сайте. Анализ показал, что на страницах воришек нередко отсутствует не только меню навигации, но и вообще что-либо кроме текста рассказа. Именно это дало им преимущество в ранжировании.
Кроме того, известно, что многие поисковики выше рейтингуют текст, который идет в начале страницы. Следователльно, построив код так, что вначале будет идти текст, а лишь затем меню навигации, рейтинг страницы в результатах поиска можно будет немного поднять.
http://www.rambler.ru/doc/faq.shtml#16
См. http://top100.rambler.ru/top100/rules.shtml.ru -- при регистрации нужно указать, что это cgi-скрипт, при этом размещать, как обычно -- только на первой странице.
Приношу Рамблеру и участникам форума свои извинения за преждевременную дезинформацию. Я действительно перешел по ссылке, но воспринял приведенный там текст как информацию о том, что движок Рамблера сменился. И, соответственно, тестировал, зайдя с главной страницы.
Итак, первые впечатления, дубль два:
1. Обилие информации в результатах поиска, часть из которой является если не лишней, то не самой важной. Над usability, мне кажется, стоит еще поработать.
1.1. Я придерживаюсь высказанного мной ранее мнения, что ссылка "далее" в списке страниц внизу должна перекидывать на следующую страницу, а не на следующий десяток страниц. Наличие ссылки "следующие 15" в начале текста не оправдание, т.к. переход на следующую страницу, как правило, осуществляется после просмотра всех ссылок, то есть когда взгляд упирается в конец страницы, а не в начало. Целиться же мышкой в крохотную циферку в списке страниц быстро надоедает.
2. Теперь про дубли:
Возможно, это так, дубли -- общая проблема. Но ни в Апорте, ни в Яндексе я не встречал двух версий одного документа с идентичным URL. Именно это удивило меня больше всего.
Даже если проигнорировать обычные дубли (совпадение текста), то проблема зеркал и идентичных URL в Яндексе неплохо решена. Может это было только в старом Рамблере? Увы, нет. Новая версия Рамблера, поиск по слову "Садовский": документ 11 совпадает с документом 23 не только по содержанию, но и по всем URL.
3. Как и в Яндексе, не полностью решена проблема идентификации сайтов, не имеющих доменного имени. В частности, в результатах поиска нетрудно заметить, что отдельный сайт http://exler.ru/anton/ считается разделом сайта http://exler.ru/ .
4. Релевантность действительно значительно выше старого Рамблера, поэтому мое заявление насчет использования только Яндекса с Апортом можно относить лишь к старому Рамблеру. В то же время, простор для улучшения есть. Если, например, по запросу
"Санта Клаус" "Дед Мороз"
только первый документ не содержит ни одного из этих слов и называется "Офисный портал: канцтовары, бумага, офисные принадлежности и полиграфия", а почти все остальные ссылки релевантны, то по запросу
Эйнштейн "формула успеха"
я не встретил ни одного релевантного документа среди первых 30. Для сравнения, у Яндекса все три документа со строгим соответствием полностью релевантны, у Апорта -- 3 из первых 10 релевантны.
5. Что касается языка запросов,
Игорь, я с Вами полностью согласен в теории. Я с Вами согласен и в том, что среднестатистическому пользователю ориентация поисковика на запрос на естественном языке принесет большую выгоду, чем уклон в сторону усиления языка запросов. Но на практике существует прослойка пользователей, которые, как правило, четко представляют что им нужно и как это искать. Именно для них предназначен язык запросов.
Я знаю достоверно, что если документ есть в базе Яндекса, я его найду; если документ есть в базе Апорта, я найду его с большой вероятностью; с Рамблером часто остается полагаться на случай.
Пример (возможно, не самый удачный, но все же иллюстрирующий мои слова): мне надо было найти информацию о трех самых больших в мире площадях. Первый пришедший в голову запрос для Яндекса
площадь & (("по величине" | "по размеру") /3 "в мире")
выдал примерно 30% релевантных документов. В то же время, среди документов, выданных новым Рамблером на первый пришедший в голову запрос
площадь & ("в мире по величине" | "в мире по размеру")
я не нашел ни одного релевантного среди первых 30.
С нетерпением жду этого события.
Спасибо большое за комментарии "из первых уст" к нашим предположениям и впечатлениям.
[This message has been edited by funsad (edited 05-01-2001).]
"Compaq AlphaServer system containing 16 gigabytes of RAM".
Дело не в компьютере, я не думаю, что в ближайшее время кто-то повторит подобное исследование. (Хотя многие другие полезные исследования сделать не так уж сложно.) Скорее речь о том, что на форуме, посвященном поисковикам, участники должны знать подобные вещи. Уверен, что это не совсем так. Почему? Далеко не у всех есть время для постоянного изучения новостей из мира поисковиков; не у всех достаточно знания английского; далеко не у каждого хватает математической подготовки, чтобы интерпретировать результаты сложных экспериментов. Именно подобные задачи, на мой взгляд, и должен решать сайт о поисковых системах и данный форум.
Меня интересует не сам код, а алгоритмы (псевдокод). Это хороший способ понять, как теория воплощается на практике -- существует огромное число прекрасных алгоритмов, которые на практике сталкиваются с ограничениями по памяти, быстродействию и, после адаптации, лишь отчасти напоминают первоначальный вариант.
А что сюда входит? Все равно подробное оглавление и "пробные" куски лекций, как правило, предоставляются бесплатно.
26% активных участников -- это хороший результат. Как правило, эта цифра не превышает 10%, а число сверхактивных обычно около 1-5% от общего числа участников (форума, общества и т.д.).
Мне лично не хватает:
1) ссылок на интересные исследования либо перевода соответствующих статей. Примерами таких исследований я считаю исследование Лоуренса и Гиля, касающееся объема Web; исследование IBM, Compaq и AltaVista о связанности веб-страниц; исследование диаметра Web и пр.
2) исследований русскоязычной части интернета -- поисковиков, web-а и, в меньшей мере, пользователей;
3) инсайдерской и недокументированной информации о поисковиках. Например, кое-какие моменты, не отраженные в разделе "Помощи", я был вынужден выяснять экспериментами: вот мой вопрос http://forum.yandex.ru/?id_note_forum=15256&by_count_days=10&cur_page=1&by_count_page=75&thread=all и более точный ответ Ильи Сегаловича http://forum.yandex.ru/?id_note_forum=15271&by_count_days=10&cur_page=1&by_count_page=75&thread=all
4) развлекательной информации, касающейся поисковиков. Это что-то вроде игр, предложенных Лейбовым;
5) всевозможной статистики, касающейся поиска информации в целом, запросов, поведения пользователей, содержания сайтов и пр.;
6) теоретической информации о реализации поисковиков, примеры реализаций с открытым кодом, обсуждение этих тем;
7) обсуждения методологии эффективного поиска;
и т.д. Я могу перечислять очень много, но и вышеуказанное, мне кажется, реализовать непросто.
Первые впечатления:
1. До сих пор нет нумерации сайтов в результатах поиска: при открытии нескольких окон с результатами в середине страницы легко "потеряться" (забыть, смотрел это или еще нет).
2. Надпись "След." в списке страниц внизу вместо ожидаемой, как в других поисковиках, следующей страницы (т.е. 2-й страницы, когда я нахожусь на первой) перебрасывает на 11-ю. Бардак.
3. По поводу "улучшенного качества поиска": по запросу "Харьков" выводятся 4 ссылки, косвенно относящиеся к Харькову, все остальное вообще не имеет отношения к
городу, причем из 15 первых ссылок 10 относятся к лекарственным препаратам.
Аналогично, по запросу "Садовский" выводятся несколько ссылок, даже не содержащих эту фамилию (например, страница газеты Утро); показывается пара ссылок на мои рассказы на других сайтах, ссылок на мой сайт среди первых 45 документов нет, хотя слово Садовский встречается там неоднократно.
4. Разочарование от "улучшенной функции поиска похожих документов" наступает, если взглянуть на документы 29 и 31 при поиске по слову "Садовский" -- и то, и другое ОДИН И ТОТ ЖЕ URL ( http://exler.ru/ezhe/13-06-99.htm ). Конечно, отличить их невероятно сложно. Да вообще странно, как может находится в базе один и тот же документ, проиндексированный дважды -- 28.04.2000 (первый) и 26.11.2000 (второй).
5. Язык запросов не стал мощнее, то есть мало-мальски серьезный поиск вести Рамблером, как и раньше, затруднительно -- по-прежнему отсутствует даже поиск фразы (цитаты).
Резюме: основной поиск, в первую очередь, я по-прежнему буду проводить с помощью Яндекса и Апорта.
Садовский Александр.
Тут, мне кажется, нужно смотреть по типам ресурсов, т.к. от этого зависит число страниц на сайте, их популярность (LP), редкое или частое включение ключевых слов и т.д. Следовательно, может оказаться, что некоторые типы ресурсов настолько "подходят" Апорту, что вытягивают его в общей статистике на второе место.
Не совсем так:
=== Cut ===
41. График спайлога про поисковые системы означает не их популярность, а всего лишь то, насколько часто пользователи переходят с поиска на страницы сайтов со счетчиком. Скорее всего, это интегральная оценка популярности и качества, т.к. по нерелевантным ссылкам будет переходить минимум пользователей.