iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Как писал Smile
не понимаю зачем Вам нужен этот narod.ru? Ради привлечения спонсоров? 🙄

Наши спонсоры называются "рекламодатели". Мы живем по рекламной модели. Делаем сервисы. Старамся, чтобы они были удобные, хорошие и бесплатные. К нам поэтому приходят люди. Мы им показываем рекламу. Которую у нас покупают эти самые спонсоры. Вот такая вот цепочка, понимаешь :)

Как писал euhenio

-Илья, а в чем это численно выражается?

Секрет, однако :)

Как писал spark
Главный финансист покупки железа, дядя ISEG с какой-то там авеню :)

Он не может. Он безработный. Английского не знает. Подрабатывает шахматным тренером немного. :)

Как писал iseg
По ранжированию "Народ" никаких преференций не имеет, не имел, и иметь не будет.

Добавлю для полноты картины. Ко всем бесплатным хосттингам без исключения при расчете ВИЦ мы относимся плохо. Просто отвратительно.

Ничего из вашего письма я не понял. О каком запросе идет речь? О каком сайте?

По ранжированию "Народ" никаких преференций не имеет, не имел, и иметь не будет.

Отличия от прочих серверов только в полноте индексации. Робот по Народу ходит по-другому: при помощи модуля webupdate, установленного в Народном Яндекс-Сайте.

Илья

Как писал spark
Рассылки "Новые документы по запросам" стали приходить ежедневно, а не два раза в неделю, как раньше. Яндекс стал обновлять индекс ежедневно? Или это другое объяснение имеет?

Это временный эффект, связаный с неаккуратной перестановкой компьютеров. :)

6. "В нашей компании имеется внутренний документ: зимний отчет о сравнении Рамблера и Яндекса. Некоторые материалы из него мы

готовы предоставить. По этому отчету следует, что после того,

как Яндекс обработал страницы и выделил из них уникальные

документы, мы 12% этих документов посчитали дублями (в действительности таковыми они и являются). Также около 40%

страниц, выданных Яндексом по тестовым запросам, не существовали в день, когда было произведено тестирование. Поэтому из данных о том, что в Яндексе 57 млн. уникальных документов, а у нас - 30 млн., совсем не следует, что мы находим вдвое меньше информации."

"Опять та же проблема - мы объединяем дубли и имеем "хитрый" алгоритм,

который пропускает повторы. Яндексовский алгоритм устроен проще и поэтому в заявленных 938 гигабайтах количество дублей выше, чем у нас."

Странные цифры. Мы тоже постоянно тестируем поисковики. Можно

воспользоваться самым свежим тестом - программой на языке перл,

которая используется нами для тестирования - она публична,

доступна всем, и лежит на сайте http://autoluba.narod.ru

Кроме относительных размеров баз, этот скрипт позволяет оценить

показатели "свежести" и "чистоты".

"Свежесть" по АвтоЛюбе - это отношение числа _доступных

на момент запроса и все еще содержащих искомое слово_ документов к

общему числу найденного по запросу. А "чистота" - это процент

"уникальных" документов во всей выдаче.

Так вот, при примерно одинаковой "свежести" наших баз (Яндекс: 84.3-87.3%, Рамблер 85.1%, Гугль "чистый" 91.7, Гугль "полный" -93.5%), и похожей "чистоте" (дубликатов в Яндексе: 1.3-1.7%, в Рамблере 2.5%, в Гугле "чистом" 1.6%, в Гугле "полном" - 5.1%) наша база существенно больше. А именно, Рамблер по отношению к Яндексу 62-63%, Гугль "чистый" - 81-87%, Гугль "грязный" - 121%.

7. "Мы ищем только документы, в которых есть ВСЕ слова

запроса, а Яндекс - все, в которых есть хотя бы одно слово. Если

подать аналогичный поисковый запрос Рамблеру - числа будут примерно равные."

То что говорит Влад - неверно. Для многословных запросов Яндекс находит документы которые содержат все слова подряд, если таких

документов достаточно много, или все слова в предложении, или близко

друг к другу и т.д.

И лишь когда рядом стоящих слов из запроса в документах не встречается, Яндекс может выдать документы, содержащие не все слова запроса. Гораздо чаще при одинаковых многословных запросах поиск Яндекс выдаст меньшее количество документов чем поиск Рамблер, будт он запущен по той же самой базе.

Именно поэтому по нашей метолике ("автолюба") берутся только однословные запросы.

8. "Мы считаем серверы www.server.ru, koi.server.ru, mac.server.ru и т. д. одним и тем же, а Яндекс - нет. Поэтому количество найденных серверов может различаться в 2-3 раза притом, что найдена одна и та же информация."

Это конечно же неправда. Яндекс достаточно агрессивно сливает подобные

"кодировочные зеркала", ничуть не менее агрессивно чем Рамблер (см. выше).

9. Шерман: Почему Google лучше Рамблера и Яндекса вместе взятых?

Во-первых, это странное утверждение.

Во-вторых, зачем интервьюеру понадобилось походя оскорблять

интервьюируемого я не очень понял. Похоже это общей стиль отчечественой журналистки, возросшей на плагиате и джинсе (ух, какой я злой :))

Кстати, может быть сам стиль ответов Влада (лобовое сравнивание себя

с конкурентом, при этом явно без обладания достаточной информацией)

был этим вопросом как раз и спровоцирован?

С уважением

Илья

Как и обещал, размещаю развернутый ответ Владу. Это первая часть.

1. "Яндекс выдает 10 результатов поиска на странице, а мы - 15.

Следовательно, у них чаще обращаются ко второй странице.

А вторая страница - это еще один поисковый запрос."

В число поисковых запросов Яндекс никогда включал

обращения ко второй и следующим страницам. Эти запросы у нас

выполняются отдельным скриптом yandpage. Мы можем такие запросы

тоже включать, но в этом случае у нас сейчас получается

около 2 800 000 поисковых запросов в день.

Из них 301 (постоянный редирект), 302 (временный редирект) и

304 (документ НЕ изменён) в сумме составляют около 150 тысяч.

Остальные все с кодом 200.

Не стоит также забывать, что в Яндексе присутствует возможность

настройки числа документов в выдаче - до 50, навскидку

она используется в 5% случаях при поиске

2. "У них также есть ресурс ya.ru, аудитория которого

пересекается с аудиторией www.yandex.ru, но нет

уверенности, что они корректно подсчитывают суммарный

размер аудитории."

Корректно считать "куки" с разных доменов действительно

технически невозможно. Зато можно сравнивать размеры

аудиторий, расчитываемые по уникальным IP (хостам), в которые

никакия искажения внести нельзя. Или же пользоваться

внешними счетчиками.

Но опять же, при чем тут число выполненных запросов? Оно

никак не связано с корректностью подсчета размера аудитории.

Очевидно, что в любом случае нужно брать сумму числа запросов на

всех доменах: www.yandex.ru, yandex.ru, ya.ru и т.д.

3. "И у нас и у Яндекса публикуются данные о посещаемости, но, во

первых, они считаются разными алгоритмами, а во вторых, считается

посещаемость главной страницы+поиска, а не только поиска - а это

совсем не одно и то же"

По поводу первого: алгоритмы хоть и разные, но принципы подсчета

одни и те же. В точности совпадающие с рекомендациями международных

организаций и накопленными в мире и рунете опытом и традицями.

Результаты должны быть весьма похожи.

Что касается посещаемости главной страницы, у нас давно

считается поиск отдельно -

http://stat.yandex.ru/index.xhtml?Prj=1&Age=d.

А главная страница считается в Портале -

http://stat.yandex.ru/report.xhtml?Prj=0&Age=d&Report=1832

4. "Самый простой способ сравнить, пользуясь

одним алгоритмом - разместить Яндекс в Top100. Только

вот они этого, почему-то, не хотят."

Понятно почему. Мы считаем неправильной ситуацию, когда активные

участники рынка сами себе делают аудит. Именно поэтому Яндекс

последовательно выступал за независимый внешний аудит.

Мы его и используем: например www.spylog.ru

А вот Рамблер предпочитает обсчитывать себя сам :)

Кроме того, Каталог TOP100 позиционируется в основном не как

независимый аудиторский счетчик, а как пользовательский

поисковый каталог. Это противоречит идее независимого

и точного определения популярности. Возникает обратная связь,

многочисленные примеры которой очень характерны для TOP100

5. "Другие, независимые, способы сравнения пробовали, но возникли

проблемы с тем, что эти независимые источники просто

не успевали обрабатывать данные (обрабатывали медленнее,

чем поступают новые данные)."

Речь идет видимо о двухлетней давности случае технического

сбоя в Спайлоге. Странный аргумент. Во-первых, сбои возможны

у всех, и их наличие или отсутствие никак не связано с "независимостью" аудитора. И сам Спайлог много раз с тех пор поменялся, и любой другой независимый счетчик можно было организовать. Технические проблемы, дающие статистические

выбросы, быть, конечно, могут, но общую картину

получить (при наличии доброй воли) конечно же возможно.

Как писал wolf
Хотя, может он просто в гости к дяде поехал. :)

Кстати, именно в гости, и именно к дяде. :)

Как писал Gray
Господи, Илья, что с Вами? Из откуда, простите мой французский, вы вещаете?

Sorry za pidgin russian. Chuzhoi komputer.

3rd Avenue / 28 street, NYC :)

Всего: 442