Мифы о Яндексе.

AiK
На сайте с 27.10.2000
Offline
257
AiK
1103

Доброе время суток Илья Сегалович, dz и Yandex support.

Кратко перечислю вопросы по работе Яндекса, которые остались для нас не выясненными.

1. Прокомментируйте пожалуйста жизнь документа с момента первого посещения его роботом и до полной его индексации. Сложилось устойчивое мнение, что при первом заходе весовые коэффициенты у всех слов на странице одинаковы и поэтому документ появляется на первой странице практически по любому слову из текста, а уж тем более по любой паре слов.

2. Чем объясняется то, что Яндекс индесирует вложенные комментарии и JavaScript? (Имеется ввиду <!-- и --> ) В частности индексируется код счётчика SpyLog (безусловно криво написанный, некоторые браузеры его не переваривают). Это один из способов спама Вашей системы.

3. По поводу индекса цитирования. Очень часто на первой странице результатов поиска присутствуют ссылки на каталоги счётчиков(List, SpyLog и др.) по-видимому из-за высокого ИЦ, но при этом на странице каталога интересная ссылка может находиться весма и весьма далеко от начала страницы и вообще быть нерелевантной. Я думаю имеет смысл поступать со страницами каталогов так же как и со страницами с других поисковиков (я ещё не разу не встречал ссылку на результаты запроса к поисковику, а вот ссылки на результаты поиска по некоторым каталогам доводилось видеть)

И ещё очень хотелось бы узнать в каком направлении движется Яндекс? Что мы можем ожидать от поисковика в новом тысячелетии?

Спасибо за внимание.

CU,

AiK

[This message has been edited by AiK (edited 16-12-2000).]

K
На сайте с 22.11.2000
Offline
42
#1

А я один раз добавила несколько страниц в Яндекс, а они только через 7 дней появились. И при поиске по слову, которое не только в тексте неоднократно появлялось, но и в title находилось - ничего не было целую неделю. Так что не понятно тут про то, что новичики наверх попадают.

katya
07
На сайте с 03.11.2000
Offline
38
007
#2

<font face="Verdana" size="2">Originally posted by katya:
Так что не понятно тут про то, что новичики наверх попадают. </font>

Многое зависит от хостинга, т.е. если соединение с твоим хостером занимает более 5 секунд то твой сайт при поиске не будет виден.

I
На сайте с 15.12.2000
Offline
80
#3

Добрый вечер.

<font face="Verdana" size="2">Originally posted by AiK:
1. Прокомментируйте пожалуйста жизнь документа с момента первого посещения его роботом и до полной его индексации. Сложилось устойчивое мнение, что при первом заходе весовые коэффициенты у всех слов на странице одинаковы и поэтому документ появляется на первой странице практически по любому слову из текста, а уж тем более по любой паре слов.
[This message has been edited by AiK (edited 16-12-2000).]
</font>

При первом посещении документ полностью индексируется. Более выское ранжирование "новых" страниц в текущем поиске Яндекса действительно присутствует, но оно никак не связано с "весовыми коэффициентами слов" или чем-нибудь подобным.

Жизнь "нового документа" такова:

1. Мгновенная полная индексация и появление в поиске через 15 минут. Этим свойством Яндекса активно пользуются и пользовались многие новостные агентства (Максим Мошков из Ленту.Ру, например). Хотя теперь, после появления отдельной эффективно индексируемой секции новостей на выдаче, а также news.yandex.ru, это совершенно не требуется.

2. Передача роботу всего нового сайта, его раскрутка по ссылкам, и более полное индексирование происходит примерно в течении 1-2-х недель.

Заметьте, что повышенная активность в добавлении УРЛ одного сайта часто фиксируется и пресекается.

<font face="Verdana" size="2">Originally posted by AiK:
2. Чем объясняется то, что Яндекс индесирует вложенные комментарии и JavaScript? (Имеется ввиду &lt;!-- и --&gt; ) В частности индексируется код счётчика SpyLog (безусловно криво написанный, некоторые браузеры его не переваривают). Это один из способов спама Вашей системы.
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Это неправда. Комментарии и скрипты, так же как и стили, не индексируются последние полтора года. При чем тут "способ спама" я совершенно не понял.

<font face="Verdana" size="2">Originally posted by AiK:
3. По поводу индекса цитирования. Очень часто на первой странице результатов поиска присутствуют ссылки на каталоги счётчиков(List, SpyLog и др.) по-видимому из-за высокого ИЦ, но при этом на странице каталога интересная ссылка может находиться весма и весьма далеко от начала страницы и вообще быть нерелевантной. Я думаю имеет смысл поступать со страницами каталогов так же как и со страницами с других поисковиков (я ещё не разу не встречал ссылку на результаты запроса к поисковику, а вот ссылки на результаты поиска по некоторым каталогам доводилось видеть)
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Мы стараемся вычищать малосодержательные поисковые скрипты. Причем, в основном, полагаемся на "умную вычищалку", которую, так же как и "нечеткую сливалку почти зеркальных серверов", запустили летом этого года. Что касается каталогов, Вы правы, их в выдаче - некоторый перебор.

Индекс цитирования напрямую в релевантности страницы пока не участвует. Популярность документа по ссылкам (опосредованно, через лексику самих ссылок) мы сейчас доделываем.

<font face="Verdana" size="2">Originally posted by AiK:
И ещё очень хотелось бы узнать в каком направлении движется Яндекс? Что мы можем ожидать от поисковика в новом тысячелетии?
[This message has been edited by AiK (edited 16-12-2000).]
</font>

Ох, как эпично! Аж в новом тысячелетии.

Не очень хочется рассказывать о не сделанном. А вдруг не сделаем

Как сделаем - так и расскажем.

Илья

AiK
На сайте с 27.10.2000
Offline
257
AiK
#4

<font face="Verdana" size="2">
Это неправда. Комментарии и скрипты, так же как и стили, не индексируются последние полтора года. При чем тут "способ спама" я совершенно не понял.
</font>

Будем надеяться, что это так (хотя первые три дня после регистрации мой сайт находили по слову counter, каковое было упомянуто только в JScript from SpyLog, сочтём это просто глюком ).

Теперь о спаме. Достаточно небольшой манипуляции с HTTP_USER_AGENT и посетители видят только строчку с предложением перейти по ссылке, а поисковик по-честному индексирует всю страницу. Проверял сам. Работает. Я так понимаю от тотальной захламлённости спасает только неизветсность данного способа широким массам...

Спасибо за внимание.

Артём.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#5

Экспериментирую тут с позиционированием в Яндексе. Для тренировки выбрал слово "халява" - ежедневно добавляется не меньше десятка страниц, так что рейтинг постоянно прыгает. Но вот вчера под номерами 4 и 7 была замечательная страница

4. Abort trap (core not dumped) | Показать найденные слова

Abort trap (core not dumped)

- -1байт - строгое соответствие

Похожие документы | Еще с сервера не менее 57 док.

Дальше, сегодня ищем слово халява. По умолчанию стоит сортировка по релевантности. Яндекс находит 203266 документов. Сортируем по дате - 180785 документов. Если бы я так сортировал, меня давно бы с работы выгнали .

Т.е. складывается впечатление, что проверять Яндекс на релевантность - абсолютно бессымысленное занятие. Или уж если и проверять, то один и тот же запрос надо долбить в течении дня несколько раз, чтобы получить более менее адекватную картину того, что же всё-таки естсь у них в базе.

F
На сайте с 15.11.2000
Offline
116
#6

<font face="Verdana" size="2">Originally posted by AiK:
Но вот вчера под номерами 4 и 7 была замечательная страница
4. Abort trap (core not dumped) | Показать найденные слова
Abort trap (core not dumped)
</font>

Это постоянная проблема Яндекса. В своих экспериментах с поисковиком я почти каждую неделю сталкиваюсь с выдачей по какому-нибудь из запросов подобной информации. Взять хотя бы несложный запрос

#keywords=(agencyowncategoryphones)

на который Яндекс выдает страницу http://www.yandex.ru/yandsearch?security=1&text=%23keywords%3D%28agencyowncategoryphones%29 , состоящую только из документов вида "Abort trap (no core dumped) Bus error (core mailed)". Несколько дней назад по этому запросу выдавалось 10 "липовых" документов, сейчас три, но от этого не легче.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 16-01-2001).]

I
На сайте с 15.12.2000
Offline
80
#7

<font face="Verdana" size="2">Originally posted by funsad:
Взять хотя бы несложный запрос

#keywords=(agencyowncategoryphones)
[This message has been edited by funsad (edited 16-01-2001).]
</font>

Александр, если это "несложный запрос", то что же тогда сложный? Уверяю Вас, ни один человек такие запросы не задает, это наш внутренний запрос нужный для поиска (точнее классификации) новостей. И только новостей. Вы ведь наверное его из прямого эфира подсмотрели? Чтобы никого не смущать, постараемся такие запросы из прямого эфира выкинуть.

Вообще, стоит заметить, яндекс внутри себя активно использует язык запросов и он процентов на 30 обширнее, чем официально представленный. Это очень удобно и никому не мешает. Кроме чрезмерно пытливых экспериментаторов.

Илья Сегалович,

Яндекс

F
На сайте с 15.11.2000
Offline
116
#8

<font face="Verdana" size="2">Originally posted by iseg:
Александр, если это "несложный запрос", то что же тогда сложный?</font>

Под сложным запросом я подразумевал выражение, комбинирующее с помощью операторов хотя бы несколько терминов. Поэтому данный запрос я бы скорее назвал нетипичным, чем сложным. (Кстати, выдачу сообщений о "trap" мне случалось видеть и по самым непритязательным запросам безо всяких операторов, хотя, безусловно, такое происходит реже.)

<font face="Verdana" size="2">Уверяю Вас, ни один человек такие запросы не задает, это наш внутренний запрос нужный для поиска (точнее классификации) новостей. И только новостей. Вы ведь наверное его из прямого эфира подсмотрели?</font>

Шаман! (c) анекдот Действительно, я увидел его в прямом эфире и меня заинтересовало, неужели возможно, что такое длинное ключевое слово могут содержать аж 10 документов. В полном варианте запрос выглядел еще сложней:

#keywords=(agencyowncategoryphones) &lt;&lt; yx_news_agency_name="Handy.Ru"

<font face="Verdana" size="2">Чтобы никого не смущать, постараемся такие запросы из прямого эфира выкинуть.</font>

Что Вы, что Вы, никакого смущения, исключительно любопытство! Так что можете не спешить выкидывать.

<font face="Verdana" size="2">Вообще, стоит заметить, яндекс внутри себя активно использует язык запросов и он процентов на 30 обширнее, чем официально представленный. Это очень удобно и никому не мешает. Кроме чрезмерно пытливых экспериментаторов. </font>

Я все хотел задать на форуме Яндекса вопрос по поводу 5 или 6 обнаруженных мной в разных источниках недокументированных операторов или недокументированной формы операторов, все не хватало времени. Видимо, пришла пора, ждите вопросов.

Кстати, а почему бы не сделать эти 30% языка запросов общедоступными? Нет времени на тестирование, не хотите запутывать пользователя или есть веростность, что в следующей версии Яндекса эти операторы могут исчезнуть?

С уважением,

Александр Садовский.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#9

Кстати, я писал уже здесь о подобных глюках. Одно время, сейчас не проверял, Яндекс по запросу midi music выдавал на первом месте директорию на сервере. В имени директории действительно встречалось искомое сочетание, но неужели это самый релевантный документ? .

Сейчас тем более перечитываю рассылку Андрея Иванова с такими же примерами.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий