funsad

Рейтинг
116
Регистрация
15.11.2000
ALT

<font face="Verdana" size="2">Originally posted by Paul Chibisov:
Ну, я надеялся, что это будет работать как метатэги на Яндексе. То есть если слова в тексте и в альте совпадают, то их вес увеличивается.</font>

А такое поведение поисковика вполне возможно и логично. Только чтобы проверить, нужно создать две идентичных тестовых страницы с одним лишь отличием в тэгах ALT. Если кому-то не лень, может проверить...

ALT

<font face="Verdana" size="2">Originally posted by Paul Chibisov:
А кто что скажет по поводу альтов? Учитывают их поисковые машины при запросе или они нужны только при поиске картинок?

Встречал мнение что, вроде как, слова в них обладают большим весом, а вот с Яндекса ответили, что альты используются только для поиска картинок...
</font>

Это элементарно проверить. Достаточно взять любой сайт, проиндексированный поисковиком, и содержащий необычную подпись к любой из картинок, и запустить поиск по фразе из этой подписи. Нашло -- значит ALT учитывается как обычный текст, нет -- ALT учитывается только при поиске картинок.

Мои эксперименты показывают, что Яндекс и Апорт не используют ALT в обычном поиске; Rambler, скорее всего, тоже -- для него сложнее определить данный факт, так как в этой системе нет поиска по фразам.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Pumba:
а что скажут профи по поводу индексации сайтов, в которых все содержимое внутритаблиц? попался мне туткакойто сервис, типа "посмотрите на свой сат глазами поисковика". Я взглянул и упал со стула - содержания там нет практически.

Как же тогда быть? Как вообще SE относятся к таблцам? Поделитесь опытом!
</font>

Таблицы нормально интерпретируются и содержание извлекается. При этом, правда, чем больше вспомогательного кода, тем больше "размывается" содержание, т.е. вес каждого ключевого слова снижается. Это легко заметить по документам, копии которых гуляют по сети. Я не раз замечал, что ряд моих рассказов на других сайтах, скопированных слово в слово, рейтингуются выше чем у те же рассказы у меня на сайте. Анализ показал, что на страницах воришек нередко отсутствует не только меню навигации, но и вообще что-либо кроме текста рассказа. Именно это дало им преимущество в ранжировании.

Кроме того, известно, что многие поисковики выше рейтингуют текст, который идет в начале страницы. Следователльно, построив код так, что вначале будет идти текст, а лишь затем меню навигации, рейтинг страницы в результатах поиска можно будет немного поднять.

<font face="Verdana" size="2">Originally posted by Pumba:
1)Все время в Рамблеровской статтистике у меня числятся некие "подозрительные" страницы, или посещения...Из-за чего это происходит, как с этим бороться и надо ли вообще и чем мне это грозит?</font>

http://www.rambler.ru/doc/faq.shtml#16

<font face="Verdana" size="2">2)Если весь сайт (в основном) представляет собой один большой cgi-скрипт (сайт поисковик) - то счетчик Рамблера как размещать? на каждой странице или ТОЛЬКО на первой?</font>

См. http://top100.rambler.ru/top100/rules.shtml.ru -- при регистрации нужно указать, что это cgi-скрипт, при этом размещать, как обычно -- только на первой странице.

<font face="Verdana" size="2">Originally posted by Ashmanov:
Очевидно, тестировался старый поисковик Рамблера, поскольку в новом сайты пронумерованы.</font>

Приношу Рамблеру и участникам форума свои извинения за преждевременную дезинформацию. Я действительно перешел по ссылке, но воспринял приведенный там текст как информацию о том, что движок Рамблера сменился. И, соответственно, тестировал, зайдя с главной страницы.

<font face="Verdana" size="2">Та же история - новый Рамблер на самом деле не находит лекарственных средств на первой странце вообще, а только сайты, "косвенно" относящиеся к Харькову.</font>

Итак, первые впечатления, дубль два:

1. Обилие информации в результатах поиска, часть из которой является если не лишней, то не самой важной. Над usability, мне кажется, стоит еще поработать.

1.1. Я придерживаюсь высказанного мной ранее мнения, что ссылка "далее" в списке страниц внизу должна перекидывать на следующую страницу, а не на следующий десяток страниц. Наличие ссылки "следующие 15" в начале текста не оправдание, т.к. переход на следующую страницу, как правило, осуществляется после просмотра всех ссылок, то есть когда взгляд упирается в конец страницы, а не в начало. Целиться же мышкой в крохотную циферку в списке страниц быстро надоедает.

2. Теперь про дубли:

<font face="Verdana" size="2">А дубли в результатах поиска - дело обычное, например, в Яндексе их в несколько раз больше, что является его известной болезнью и что легко проверить.</font>

Возможно, это так, дубли -- общая проблема. Но ни в Апорте, ни в Яндексе я не встречал двух версий одного документа с идентичным URL. Именно это удивило меня больше всего.

Даже если проигнорировать обычные дубли (совпадение текста), то проблема зеркал и идентичных URL в Яндексе неплохо решена. Может это было только в старом Рамблере? Увы, нет. Новая версия Рамблера, поиск по слову "Садовский": документ 11 совпадает с документом 23 не только по содержанию, но и по всем URL.

3. Как и в Яндексе, не полностью решена проблема идентификации сайтов, не имеющих доменного имени. В частности, в результатах поиска нетрудно заметить, что отдельный сайт http://exler.ru/anton/ считается разделом сайта http://exler.ru/ .

4. Релевантность действительно значительно выше старого Рамблера, поэтому мое заявление насчет использования только Яндекса с Апортом можно относить лишь к старому Рамблеру. В то же время, простор для улучшения есть. Если, например, по запросу

"Санта Клаус" "Дед Мороз"

только первый документ не содержит ни одного из этих слов и называется "Офисный портал: канцтовары, бумага, офисные принадлежности и полиграфия", а почти все остальные ссылки релевантны, то по запросу

Эйнштейн "формула успеха"

я не встретил ни одного релевантного документа среди первых 30. Для сравнения, у Яндекса все три документа со строгим соответствием полностью релевантны, у Апорта -- 3 из первых 10 релевантны.

5. Что касается языка запросов,

<font face="Verdana" size="2">Я уже писал, что язык запросов "умощнять" мы и не будем. Я считаю, что "мощный" язык запросов - признак слабости системы, а развивать поисковик нужно в сторону запроса на естественном языке.</font>

Игорь, я с Вами полностью согласен в теории. Я с Вами согласен и в том, что среднестатистическому пользователю ориентация поисковика на запрос на естественном языке принесет большую выгоду, чем уклон в сторону усиления языка запросов. Но на практике существует прослойка пользователей, которые, как правило, четко представляют что им нужно и как это искать. Именно для них предназначен язык запросов.

Я знаю достоверно, что если документ есть в базе Яндекса, я его найду; если документ есть в базе Апорта, я найду его с большой вероятностью; с Рамблером часто остается полагаться на случай.

Пример (возможно, не самый удачный, но все же иллюстрирующий мои слова): мне надо было найти информацию о трех самых больших в мире площадях. Первый пришедший в голову запрос для Яндекса

площадь & (("по величине" | "по размеру") /3 "в мире")

выдал примерно 30% релевантных документов. В то же время, среди документов, выданных новым Рамблером на первый пришедший в голову запрос

площадь & ("в мире по величине" | "в мире по размеру")

я не нашел ни одного релевантного среди первых 30.

<font face="Verdana" size="2">А вообще нужно иметь в виду, что выставленный поиск - ПРОМЕЖУТОЧНАЯ бета-версия (к слову о тестировании), к которой ещё не подключён новый индекс с координатами слов.</font>

С нетерпением жду этого события.

Спасибо большое за комментарии "из первых уст" к нашим предположениям и впечатлениям.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 05-01-2001).]

<font face="Verdana" size="2">Originally posted by spider:
Эка ты загнул (я про аналогичные IBM исследования интернета) - не каждый себе это может позволить. Если ты хорошо помнишь эту статью - то наверняка обратил внимание какой комп они использовали для обсчета графа.</font>

"Compaq AlphaServer system containing 16 gigabytes of RAM".

Дело не в компьютере, я не думаю, что в ближайшее время кто-то повторит подобное исследование. (Хотя многие другие полезные исследования сделать не так уж сложно.) Скорее речь о том, что на форуме, посвященном поисковикам, участники должны знать подобные вещи. Уверен, что это не совсем так. Почему? Далеко не у всех есть время для постоянного изучения новостей из мира поисковиков; не у всех достаточно знания английского; далеко не у каждого хватает математической подготовки, чтобы интерпретировать результаты сложных экспериментов. Именно подобные задачи, на мой взгляд, и должен решать сайт о поисковых системах и данный форум.

<font face="Verdana" size="2">Кстати, а зачем тебе код поисковиков ? Вот мне, например, информации и так выше крыши (Ну это я так - из любопытства спросил)</font>

Меня интересует не сам код, а алгоритмы (псевдокод). Это хороший способ понять, как теория воплощается на практике -- существует огромное число прекрасных алгоритмов, которые на практике сталкиваются с ограничениями по памяти, быстродействию и, после адаптации, лишь отчасти напоминают первоначальный вариант.

<font face="Verdana" size="2">Методология эффективного поиска - гм... опять же это у меня есть для забугорных поисковиков, только опять же не бесплатно </font>

А что сюда входит? Все равно подробное оглавление и "пробные" куски лекций, как правило, предоставляются бесплатно.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Народ, я, конечно, понимаю, что праздники и все такое... Но, все-таки...
На форуме зарегистрировано 82 участника. Из них примерно 60 человек я не видел на форуме уже очень давно.
</font>

26% активных участников -- это хороший результат. Как правило, эта цифра не превышает 10%, а число сверхактивных обычно около 1-5% от общего числа участников (форума, общества и т.д.).

<font face="Verdana" size="2">Неужто неинтересно? Или чего-то не хватает? Так высказывайтесь, говорите, что надо. Добавлю </font>

Мне лично не хватает:

1) ссылок на интересные исследования либо перевода соответствующих статей. Примерами таких исследований я считаю исследование Лоуренса и Гиля, касающееся объема Web; исследование IBM, Compaq и AltaVista о связанности веб-страниц; исследование диаметра Web и пр.

2) исследований русскоязычной части интернета -- поисковиков, web-а и, в меньшей мере, пользователей;

3) инсайдерской и недокументированной информации о поисковиках. Например, кое-какие моменты, не отраженные в разделе "Помощи", я был вынужден выяснять экспериментами: вот мой вопрос http://forum.yandex.ru/?id_note_forum=15256&by_count_days=10&cur_page=1&by_count_page=75&thread=all и более точный ответ Ильи Сегаловича http://forum.yandex.ru/?id_note_forum=15271&by_count_days=10&cur_page=1&by_count_page=75&thread=all

4) развлекательной информации, касающейся поисковиков. Это что-то вроде игр, предложенных Лейбовым;

5) всевозможной статистики, касающейся поиска информации в целом, запросов, поведения пользователей, содержания сайтов и пр.;

6) теоретической информации о реализации поисковиков, примеры реализаций с открытым кодом, обсуждение этих тем;

7) обсуждения методологии эффективного поиска;

и т.д. Я могу перечислять очень много, но и вышеуказанное, мне кажется, реализовать непросто.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Рамблер выкатил и предлагает протестировать новую версию поисковика. Видимо, это то, о чем нам говорил в ноябре месяце Игорь Ашманов. Первый поиск по новой версии показал, что результаты выводятся гораздо более упорядоченно, но вот релевантность оценить просто не успел.</font>

Первые впечатления:

1. До сих пор нет нумерации сайтов в результатах поиска: при открытии нескольких окон с результатами в середине страницы легко "потеряться" (забыть, смотрел это или еще нет).

2. Надпись "След." в списке страниц внизу вместо ожидаемой, как в других поисковиках, следующей страницы (т.е. 2-й страницы, когда я нахожусь на первой) перебрасывает на 11-ю. Бардак.

3. По поводу "улучшенного качества поиска": по запросу "Харьков" выводятся 4 ссылки, косвенно относящиеся к Харькову, все остальное вообще не имеет отношения к

городу, причем из 15 первых ссылок 10 относятся к лекарственным препаратам.

Аналогично, по запросу "Садовский" выводятся несколько ссылок, даже не содержащих эту фамилию (например, страница газеты Утро); показывается пара ссылок на мои рассказы на других сайтах, ссылок на мой сайт среди первых 45 документов нет, хотя слово Садовский встречается там неоднократно.

4. Разочарование от "улучшенной функции поиска похожих документов" наступает, если взглянуть на документы 29 и 31 при поиске по слову "Садовский" -- и то, и другое ОДИН И ТОТ ЖЕ URL ( http://exler.ru/ezhe/13-06-99.htm ). Конечно, отличить их невероятно сложно. Да вообще странно, как может находится в базе один и тот же документ, проиндексированный дважды -- 28.04.2000 (первый) и 26.11.2000 (второй).

5. Язык запросов не стал мощнее, то есть мало-мальски серьезный поиск вести Рамблером, как и раньше, затруднительно -- по-прежнему отсутствует даже поиск фразы (цитаты).

Резюме: основной поиск, в первую очередь, я по-прежнему буду проводить с помощью Яндекса и Апорта.

С уважением,

Садовский Александр.

<font face="Verdana" size="2">Originally posted by AiK:
Вот это и вызывает некоторые сомнения. По индивидуальной статистике отдача от Рамблера выше, чем от Аппорта, а по общей - наоборот.</font>

Тут, мне кажется, нужно смотреть по типам ресурсов, т.к. от этого зависит число страниц на сайте, их популярность (LP), редкое или частое включение ключевых слов и т.д. Следовательно, может оказаться, что некоторые типы ресурсов настолько "подходят" Апорту, что вытягивают его в общей статистике на второе место.

<font face="Verdana" size="2">Originally posted by AiK:
Блин, до меня только что дошло, что эти цифры (особенно обобщённые) всего навсего отображают популярность поисковиков в рунете </font>

Не совсем так:

=== Cut ===

41. График спайлога про поисковые системы означает не их популярность, а всего лишь то, насколько часто пользователи переходят с поиска на страницы сайтов со счетчиком. Скорее всего, это интегральная оценка популярности и качества, т.к. по нерелевантным ссылкам будет переходить минимум пользователей.

=== Cut ===

Всего: 1505