На runet.ru интервью с Владиславом Шабановым (Rambler)

1 2345 6
Fad
На сайте с 25.09.2001
Offline
124
Fad
#21
Как писал vs

Кстати, вот вы тут говорите про плохое ранжирование. Давайте сделаем так: приведите примеры (запрос, что нашлось и что именно не нравится). Мы обязательно посмотрим, поанализируем и исправим, если оно не противоречит, например, требованиям производительности или объему индекса.

Запрос "дизайн", берем запрос в Рамблере и в Яндексе...

Смотрим в Рамблере первым идет agava.ru и далее не одной

известной фирмы.

Второй сайт имеет спамерский title

ВОТ ОН

"

ЦЭТИС - Центр Эффективных Технологий и Информационных Систем.

                      

                      

                      

                      

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html компьютеры, дизайн, разработка, портфолио, цены, www, html

"

далее 9 сайтов из 15 с бесплатного хостинга by.ru

В общем не одной известной фирмы, кроме agava... Причем я

думаю она попала из top100...

В общем картина ясна...

Смотрим в Яндексе, в листинге сайты известых фирм. Не одного

сайта Васи Пупкина с бесплатного хостинга. На котором есть три работы,

и много слов типа "мы владеем уникальными технологиями".

С уважением, Фадеичев Андрей, руководитель проекта "Биржа контента eTXT.ru" (http://www.etxt.ru/)
wolf
На сайте с 13.03.2001
Offline
1183
#22
В общем картина ясна...

Я думаю, с введением технологии PageRank, все боле-менее устаканится. А сейчас, действительно, лидеры в Рамблеры - либо сайты с мегабайтами архивов прайс-листов (типа citymarket.ru с его многочисленными зеркалами, нераспознанными Рамблером), либо коряво сляпанные и тупо проспамленные невидимым текстом странички вась пупкиных.

Но больше всего меня прикалывает запрос "компьютер". Если не считать первой пятерки примешанной из Топ100 (с самим Рамблером на 5-м месте :) ), то все остальное - различные литературные произведения.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
[Удален]
#23
Как писал vs

Мы расчитываем, что если что-нибудь в мире утонет или взорвется, то информация об этом будет появляться в поиске быстрее, чем сейчас.

Если не секрет, что при этом произойдет с Рамблер-Медиа? Раздел будет

а) индексироваться на общих основаниях с другими СМИ?

б) пользоваться безусловным приоритетом, как это сделано в Яху?

в) ликвидирован, а Рамблер начнет "стеснительно" торговать выдачей чужих новостей, как Яндекс?

В пункте в) имеется ввиду сервис Яндекса "Новости" в левом верхнем углу главной страницы. Заявляется тема дня, допустим, "Наводнения в Европе", но запрос идет другой - близкий, но такой, чтобы нужный ресурс был на главных позициях в выдаче. Хотя, конечно, это можно трактовать как торговлю не выдачей, а специально составленным запросом... Кстати, давно хотел спросить у Яндекса - а зачем так усложнять? Если просто продавать новостным ресурсам текстовую ссылку в левом верхнем углу, переходов будет больше, да и юзеру удобнее:)

I
На сайте с 15.12.2000
Offline
80
#24
Как писал ast Заявляется тема дня, допустим, "Наводнения в Европе", но запрос идет другой - близкий, но такой, чтобы нужный ресурс был на главных позициях в выдаче. Хотя, конечно, это можно трактовать как торговлю не выдачей, а специально составленным запросом... Кстати, давно хотел спросить у Яндекса - а зачем так усложнять? Если просто продавать новостным ресурсам текстовую ссылку в левом верхнем углу, переходов будет больше, да и юзеру удобнее:)

Основная задача в данном контексте фильтрационная. Чтобы как можно больше новостей попало в "тему" из разных новостных агенств. Поскольку

разный агенства исользуют разную лексику, мы стараемся давать максимально широкие и, в то же время, точные термины.

Текст запроса обычно очень прост. Это несколько слов или фраз, разделенных опрератором "ИЛИ" ("|").

Интерфейс смены текста запроса прост и позволяет менять его оперативно буквально за секунды. В сочетание с тем (достатотчно уникальным, "антре ну" :)) фактом, что Я.Новости индексируются и скачиваются раз в 10-15 минут, это дает высокую гибкость и точность выделения темы, при максимально возможной полноте.

Например в прошлом году во время атаки на Нью-Йорк я лично менял тему примерно 7 раз в течении 1 часа.

Опять же "антре ну" :), я не знаю другого портала в мире, который бы имел при максимальной широте и представительности (если эти понятия относимы в принципе к отечественнной журналистике) в то же время достаточно точный и оперативный тематический новостной поток. Хотя бы и сделанный такими же весьма простыми средствами.

Сортируется новостная выдачи всегда по времени.

P.S.

Кстати, фантастические предположения о "продаже позиций" я ни в коем случае не считаю инсинуацией, предвзятостью или попытками нас опорочить :), скорее это связано с невнимательностью, общим технологическим невежством и этической расхлябанностью.

P.P.S.

К большому сожалению в интервью Влада было допущено много неточностей, причем именно в той части, когда он говорил про Яндекс. Я постараюсь прокомментировать, но не уверен, что у меня получится на этой неделе.

[Удален]
#25
Как писал iseg


Чтобы как можно больше новостей попало в "тему" из разных новостных агенств. Поскольку разный агенства исользуют разную лексику, мы стараемся давать максимально широкие и, в то же время, точные термины.

Текст запроса обычно очень прост. Это несколько слов или фраз, разделенных опрератором "ИЛИ" ("|").

Поиск в Яндекс.Новостях по словосочетаниям "Австрия: идет эвакуация Хардэгга" (текст ссылки в лев. верх. углу главной 13.08.2002 - 23:31) и "В Праге утонули слон и бегемот" (14.08.2002 - 02:43) вроде как не вписывается в эту концепцию. Впрочем, каких-то новостных агентств и логических операторов я вполне мог и не заметить из-за невежества

I
На сайте с 15.12.2000
Offline
80
#26

1. В настоящий момент "темами дня" являются (порядок действий: набрать www.yandex.ru, нажать Enter, в правом верхнем углу прочитать набранный русскими буквами слова):

Тема: Наводнение в Краснодарском крае

Тема: Наводнения в Европе

(далее щелкать мышкой по темам и читать текст запросов):

наводнение (краснодар | новороссийск) (гидрометеоцентр | МЧС)

наводнение -краснодар -новороссийск -россия -гидрометеоцентр -МЧС

Как видите, перед нами набор простых логических операторов. И никакого волшебства.

Проверить наличие сортировки по времени и убедиться в наличии разных агентств просто - надо читать строчки под заголовками:

14.08.2002 - 09:41 [НТВ.ру]

14.08.2002 - 09:29 [КоммерсантЪ]

14.08.2002 - 09:17 [Gazeta.ru]

14.08.2002 - 09:16 [НТВ]

14.08.2002 - 09:14 [ПРЕСС-ЦЕНТР.РУ]

14.08.2002 - 09:13 [Вести РТР]

3. Примеры, которые приведены AST - это же поиск "похожих новостей" - для каждой новости из новостного потока, попадающего на первую страницу.

Те кто посещал Я-новости за последние годы, обратили внимание на старый механизм поиска: брался заголовок и по нему запускался поиск по кворуму "{ЗАГОЛОВОК}//КВОРУМ". Последнее время мы добавили к заголовку поиск "похожего документа". Очевидно, первым (одним из)документом среди похожих должен быть сам образец. В противном случае нас просто засмеют. :)

Также очевидно, что ручная модификация запросов со злостной целью поднять те или иные агентства физически невозможна - заголовков в день под сотню.

Поиск связанных новостей по их заголовкам или при

помощи механизма поиска "похожего документа" не имеет

никакого отнощения к "теме дня".

Кстати, обсуждение "продажности" Яндекс-Новостей в теме про интервью Рамблера - типичный "злостный" оф-топ. :)

Если глубокоуважаемый AST хочет продолжить эту дискуссию, то я готов ответить на его претензии при условии:

1. Наличия отдельного треда для обсуждения. Я не согласен, походя, обсуждать "продажность" сервиса, которым пользуются до 50 тысяч человек в день.

2. Наличия максимально обоснованного обвинения со всеми возможными доводами.

3. Тщательного изучения самого предмета вопроса.

Илья

[Удален]
#27

Илья, полностью согласен с Вами, что обсуждению Яндекс.Новости в этом треде не место, а также должен признать, что напрасно завел речь о продаже. Выдача не "первого (одного из)", а одного-единственного "похожего документа" про Прагу и слона, в общем-то, дело хозяйское. Интересная новость, в конце концов:)

Цель же моя состояла в том, чтобы выяснить, каким образом намерен Рамблер сочетать свой будущий поиск по новостям с наличием собственного новостного ресурса. Был бы благодарен Рамблеру за ответ.

[Удален]
#28

жалко, что тред стух

I
На сайте с 15.12.2000
Offline
80
#29

Как и обещал, размещаю развернутый ответ Владу. Это первая часть.

1. "Яндекс выдает 10 результатов поиска на странице, а мы - 15.

Следовательно, у них чаще обращаются ко второй странице.

А вторая страница - это еще один поисковый запрос."

В число поисковых запросов Яндекс никогда включал

обращения ко второй и следующим страницам. Эти запросы у нас

выполняются отдельным скриптом yandpage. Мы можем такие запросы

тоже включать, но в этом случае у нас сейчас получается

около 2 800 000 поисковых запросов в день.

Из них 301 (постоянный редирект), 302 (временный редирект) и

304 (документ НЕ изменён) в сумме составляют около 150 тысяч.

Остальные все с кодом 200.

Не стоит также забывать, что в Яндексе присутствует возможность

настройки числа документов в выдаче - до 50, навскидку

она используется в 5% случаях при поиске

2. "У них также есть ресурс ya.ru, аудитория которого

пересекается с аудиторией www.yandex.ru, но нет

уверенности, что они корректно подсчитывают суммарный

размер аудитории."

Корректно считать "куки" с разных доменов действительно

технически невозможно. Зато можно сравнивать размеры

аудиторий, расчитываемые по уникальным IP (хостам), в которые

никакия искажения внести нельзя. Или же пользоваться

внешними счетчиками.

Но опять же, при чем тут число выполненных запросов? Оно

никак не связано с корректностью подсчета размера аудитории.

Очевидно, что в любом случае нужно брать сумму числа запросов на

всех доменах: www.yandex.ru, yandex.ru, ya.ru и т.д.

3. "И у нас и у Яндекса публикуются данные о посещаемости, но, во

первых, они считаются разными алгоритмами, а во вторых, считается

посещаемость главной страницы+поиска, а не только поиска - а это

совсем не одно и то же"

По поводу первого: алгоритмы хоть и разные, но принципы подсчета

одни и те же. В точности совпадающие с рекомендациями международных

организаций и накопленными в мире и рунете опытом и традицями.

Результаты должны быть весьма похожи.

Что касается посещаемости главной страницы, у нас давно

считается поиск отдельно -

http://stat.yandex.ru/index.xhtml?Prj=1&Age=d.

А главная страница считается в Портале -

http://stat.yandex.ru/report.xhtml?Prj=0&Age=d&Report=1832

4. "Самый простой способ сравнить, пользуясь

одним алгоритмом - разместить Яндекс в Top100. Только

вот они этого, почему-то, не хотят."

Понятно почему. Мы считаем неправильной ситуацию, когда активные

участники рынка сами себе делают аудит. Именно поэтому Яндекс

последовательно выступал за независимый внешний аудит.

Мы его и используем: например www.spylog.ru

А вот Рамблер предпочитает обсчитывать себя сам :)

Кроме того, Каталог TOP100 позиционируется в основном не как

независимый аудиторский счетчик, а как пользовательский

поисковый каталог. Это противоречит идее независимого

и точного определения популярности. Возникает обратная связь,

многочисленные примеры которой очень характерны для TOP100

5. "Другие, независимые, способы сравнения пробовали, но возникли

проблемы с тем, что эти независимые источники просто

не успевали обрабатывать данные (обрабатывали медленнее,

чем поступают новые данные)."

Речь идет видимо о двухлетней давности случае технического

сбоя в Спайлоге. Странный аргумент. Во-первых, сбои возможны

у всех, и их наличие или отсутствие никак не связано с "независимостью" аудитора. И сам Спайлог много раз с тех пор поменялся, и любой другой независимый счетчик можно было организовать. Технические проблемы, дающие статистические

выбросы, быть, конечно, могут, но общую картину

получить (при наличии доброй воли) конечно же возможно.

I
На сайте с 15.12.2000
Offline
80
#30

6. "В нашей компании имеется внутренний документ: зимний отчет о сравнении Рамблера и Яндекса. Некоторые материалы из него мы

готовы предоставить. По этому отчету следует, что после того,

как Яндекс обработал страницы и выделил из них уникальные

документы, мы 12% этих документов посчитали дублями (в действительности таковыми они и являются). Также около 40%

страниц, выданных Яндексом по тестовым запросам, не существовали в день, когда было произведено тестирование. Поэтому из данных о том, что в Яндексе 57 млн. уникальных документов, а у нас - 30 млн., совсем не следует, что мы находим вдвое меньше информации."

"Опять та же проблема - мы объединяем дубли и имеем "хитрый" алгоритм,

который пропускает повторы. Яндексовский алгоритм устроен проще и поэтому в заявленных 938 гигабайтах количество дублей выше, чем у нас."

Странные цифры. Мы тоже постоянно тестируем поисковики. Можно

воспользоваться самым свежим тестом - программой на языке перл,

которая используется нами для тестирования - она публична,

доступна всем, и лежит на сайте http://autoluba.narod.ru

Кроме относительных размеров баз, этот скрипт позволяет оценить

показатели "свежести" и "чистоты".

"Свежесть" по АвтоЛюбе - это отношение числа _доступных

на момент запроса и все еще содержащих искомое слово_ документов к

общему числу найденного по запросу. А "чистота" - это процент

"уникальных" документов во всей выдаче.

Так вот, при примерно одинаковой "свежести" наших баз (Яндекс: 84.3-87.3%, Рамблер 85.1%, Гугль "чистый" 91.7, Гугль "полный" -93.5%), и похожей "чистоте" (дубликатов в Яндексе: 1.3-1.7%, в Рамблере 2.5%, в Гугле "чистом" 1.6%, в Гугле "полном" - 5.1%) наша база существенно больше. А именно, Рамблер по отношению к Яндексу 62-63%, Гугль "чистый" - 81-87%, Гугль "грязный" - 121%.

7. "Мы ищем только документы, в которых есть ВСЕ слова

запроса, а Яндекс - все, в которых есть хотя бы одно слово. Если

подать аналогичный поисковый запрос Рамблеру - числа будут примерно равные."

То что говорит Влад - неверно. Для многословных запросов Яндекс находит документы которые содержат все слова подряд, если таких

документов достаточно много, или все слова в предложении, или близко

друг к другу и т.д.

И лишь когда рядом стоящих слов из запроса в документах не встречается, Яндекс может выдать документы, содержащие не все слова запроса. Гораздо чаще при одинаковых многословных запросах поиск Яндекс выдаст меньшее количество документов чем поиск Рамблер, будт он запущен по той же самой базе.

Именно поэтому по нашей метолике ("автолюба") берутся только однословные запросы.

8. "Мы считаем серверы www.server.ru, koi.server.ru, mac.server.ru и т. д. одним и тем же, а Яндекс - нет. Поэтому количество найденных серверов может различаться в 2-3 раза притом, что найдена одна и та же информация."

Это конечно же неправда. Яндекс достаточно агрессивно сливает подобные

"кодировочные зеркала", ничуть не менее агрессивно чем Рамблер (см. выше).

9. Шерман: Почему Google лучше Рамблера и Яндекса вместе взятых?

Во-первых, это странное утверждение.

Во-вторых, зачем интервьюеру понадобилось походя оскорблять

интервьюируемого я не очень понял. Похоже это общей стиль отчечественой журналистки, возросшей на плагиате и джинсе (ух, какой я злой :))

Кстати, может быть сам стиль ответов Влада (лобовое сравнивание себя

с конкурентом, при этом явно без обладания достаточной информацией)

был этим вопросом как раз и спровоцирован?

С уважением

Илья

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий