Rambler - каким он будет?

AiK
На сайте с 27.10.2000
Offline
257
AiK
1410

Доброе время суток, Игорь!

Прочитал я Вашу статью http://www.osp.ru/school/2000/01/012.htm

и сразу задался вопросом - насколько приблизится новый Рамблер к Вашему идеалу поисковой системы? Точнее, чтобы не приводить здесь всю статью целиком, чего ожидать не приходится?

Будут ли внедрены новые механизмы защиты от "шума"? В частности, мне встречались (не буду правда утверждать что в Рамблере) страницы, в которых искомое слово упоминается только в JScript.

Будет ли использоваться индекс цитирования для ранжирования результатов поиска?

Спасибо,

Артём.

Ashmanov
На сайте с 21.11.2000
Offline
66
#1

Здравствуйте!

Что будет в Рамблере: в декабре мы "выкатим" новое ядро.

В первую очередь оно будет иметь координатный поиск, то есть будет учитывать расположение слов относительно друг друга и всего текста. Главные проблемы со старым ядром были именно в том, что в индексе не хранилось сведений о координате (номере) слова в тексте (это дополнительное, довольно тяжёлое измерение индекса).

Мы почти сразу подключим хорошее ранжирование, распознавание слов во всех формах, собирание документов в сайты, подавление дублей, цитирование текста с подсветкой, кое-что ещё.

В январе-феврале добавятся всякие интеллектуальные штучки, в том числе подавление мусорных сайтов (всяких doorway в терминологии этого форума), распознавание темы документа и так далее.

Чего пока не будет:

в декабре не будет для ранжирования использоваться граф ссылок (так называемый PageRank в Google). В первом квартале мы его подключим.

Что до Индекса цитирования - это довольно странная идея Яндекса, требующая расстановки специальных счётчиков, вряд ли мы ею воспользуемся.

У нас есть свой счётчик Тор100, гораздо более распространённый, он показывает популярность сайта не у держателей сайтов (цитирование - это ведь аналог PageRank), а упользователей; его для ранжирования мы использовать, конечно, будем - уже используем.

В декабре мы можем не успеть подключить запрос на естественном языке.

Игорь Ашманов, Рамблер.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Игорь, правильно ли я вас понял? Т.е. В Рамблере в результатах поиска выше стоит не более релевантная страница, а страница с более посещаемого ресурса? Или нет? Насколько в таком случае реально раскрутиться с помощью вашей поисковой машины начинающему с хорошим сайтом, с хорошим контентом?

Насколько я знаю, для индекса цитируемости в Яндексе не надо ставить счетчики. Он считается и так, а счетчик только показывает в режиме реального времени количество ссылок на сайт.

A
На сайте с 23.10.2000
Offline
6
#3

Gray, насколько я понял Rambler (да и другие SE) изначально задумывались не как мех-м для раскрутки сайтов а именно как поисковая система

http://www.besplatno.ru (http://www.besplatno.ru)
A
На сайте с 23.10.2000
Offline
6
#4

вопрос к Rambler:

как наиболее эффективно "разместить" например этот (или другой) форум, он имеет несколько десятков/сотен/тысяч статических страниц, причем регулярно появляются новые страницы

хочется чтобы все страницы были проиндексированы поисковиком, как это сделать?, нужно каждую страницу сабмитить или достаточно добавить одну страницу имеющую ссылки на все остальные, например http://www.besplatno.ru/forum/HTMLsummary/summarypage.html

так же вопрос, как Rambler относится к динамически создаваемым страницам (.cgi .php) ?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#5

Агент, я подразумевал, что практически единственный способ привлечь на сайт с хорошим содержанием посетителей - использовать поисковую систему. Кроме того, популярное - не всегда лучшее и ты это знаешь.

Небольшое замечание: на форуме нет участника с ником Rambler. Обращайся к человеку по нику, хорошо?

Ashmanov
На сайте с 21.11.2000
Offline
66
#6

Нет, в Рамблере не стоит выше самая посещаемая страница.

В Рамблере стоит выше самая релевантная, как и положено. Просто в старом ядре релевантность страдает, поэтому мы в качестве промежуточного решения добавили поиск по Тор100, с ранжированием по релевантности, во-первых, плюс по посещаемости (хостам), во-вторых. Некоторое количество таких результатов замешиваются в общие результаты поиска.

Это фактически поиск по каталогу.

Поиск по каталогу, как известно, используют и Яндекс и Апорт, и прочие. Просто потому, что аннотации в каталогах заведомо релевантны и поиск по ним выше качеством. Если каталог имеет хорошее покрытие, это даёт сильное улучшение. Наш каталог - большой, а главное, живой. В нём 55,0000 живых сайтов и индексирование происходит каждый день.

Но! Только первых страниц.

В начале декабря мы начнём обсчитывать в Тор100 все страницы.

Что касается совета, как зарегистрироваться -я дал совет в первую очередь зарегистрироваться в Тор100 для того, чтобы сразу оказаться заиндексированным и видимым в результатах поиска. А все страницы сайта будут заиндексированы пауком за довольно долгое время, сейчас это минимум две недели, к сожалению.

Процедуру регистрации и обхода мы тоже переделываем.

А для регистрации собственно в пауке достаточно дать URL головной страницы.

Игорь Ашманов, Рамблер.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#7

Спасибо за ответ.

Если всё так будет, как Вы рассказываете, многие посетители к вам вернутся (я то уж точно, поскольку я очень не люблю менять свои привычки).

По поводу индекса цитирования - согласен, в Яндексе он реализован довольно криво - как результат на многие запросы в первую десятку попадают страницы со SpyLog'а, ведь ссылка ссылке рознь. А взята идея из научного мира. Не знаю как сейчас, а ещё лет десять назад ученые мужи занимались поиском ссылок на свои статьи (задача упрощается тем, что в конце статьи в обязательном порядке идёт список использованной литературы). Чем больше ссылок - тем больше платили за статью. Понятное дело, что упоминания в какой-нибудь "бульварной" газете в расчет не принимались. Если Вы собираетесь определять темы документов, то ссылки со страниц той же направленности должны как-то сказываться на результате поиска. Очевидно, что счётчики тут не причём.

Кстати о счётчиках. Бытует в народе байка о раскрутке пустой страницы. Человек в начале нового дня привёл на свою страницу около 50-ти человек, что позволило ему продержаться в первой странице топа в течение нескольких дней. Получил бешенный приток посетителей. По Вашей идеалогии он ещё и в результатах поиска должен был приподняться.

И ещё технический вопрос о счётчике, коль скоро мы его здесь упомянули. Существуют анонимные прокси, которые не передают HTTP_VIA. Т.е. скрипт его не распознает как прокси. Единственный способ с ними бороться (как я понимаю)- это составлять "чёрный список". На сегодняшний день очевидно с этой проблеммой Ваш счётчик никак не борется, иначе как объяснить присутсвие "пустых" страниц в первой 50-ке топа?

Спасибо,

Артём.

Ashmanov
На сайте с 21.11.2000
Offline
66
#8

1. Насколько я понимаю, это апокриф. В действительности был эксперимент Шипилова из КомпьюТерры, по существу провалившийся. Он заранее сказал всем "гоп", выбрал малоинтересную категорию "Технологии", где хитов ничтожно мало и показал в своей статье снимок экрана на 0-55 ночи в выходные, где его пустой сайт был шестым (с 37 хостами, кажется). Для того, чтобы этого добиться, он открутил сколько-то баннеров. Ну, и в чём здесь фокус? Из этих 37, возможно, 50% были привлечённые им знакомые, остальные - бедные обманутые пользователи. Им, наверно, показали голую девицу, а потом - наоборот.

Если бы этот сайт был ещё сколько-нибудь виден утром, Шипилов бы поместил утренний скриншот, естественно.

Вообще раскрутить пустую страницу можно гораздо круче, купив exit-traffic у Порт.ру (читайте конференцию banners). Или заплатив клик-клубу. Вопрос денег.

Но в начальные двадцатки или пятидесятки Тор100 он всё равно не попадёт или не удержится. Дороговато будет поддерживать.

2. Действительно, показ страниц из Тор100 в поиске создаёт положительную обратную связь. Но она и так положительнее некуда в самом Тор100. Потому он и живет, что генерит трафик в 250-300 тысяч кликов на участников ежедневно. И в основном в 1-2-й двадцатке.

Что касается прокси, то у нас есть чёрный список примерно на 10,000 штук. Но он, естественно, неполон. Модератор пополняет. Есть и автоматические детекторы накруток.

А вообще осбуждать Тор100 можно бесконечно. У нас трафик в сотни писем в день - вопросы, доносы, пожелания.

Игорь Ашманов, Рамблер.

F
На сайте с 15.11.2000
Offline
116
#9

Originally posted by Ashmanov:
Что будет в Рамблере: в декабре мы "выкатим" новое ядро.

Игорь, скажите, пожалуйста, будет ли расширен язык запросов Rambler-а? Дело в том, что одной из причин, почему я отказался от использования текущей версии этого поисковика, и была невозможность сказать Rambler-у, что именно я хочу найти. Я прекрасно понимаю пассивность вашего руководства в данном направлении, так как тот же "Прямой эфир" Яндекса легко покажет, что язык запросов используют не более 5% пользователей. Однако, часто сталкиваясь с поиском научной или труднодоступной информации, я пришел к выводу, что только язык запроса может дать в сложных случаях полезные результаты. Именно поэтому хотелось бы получить в новой версии Рамблера инструмент, не уступающий по мощности ни языку запросов Яндекса, ни языку запросов Апорта.

Ashmanov
На сайте с 21.11.2000
Offline
66
#10

Я уже ответил один раз на этот вопрос, но почему-то реплику не опубликовали. Может быть, технический сбой.

Коротко ещё раз:

а) язык запросв действительно почти никому не нужен. Используется поисковиками в основном для маркетинга - "у нас мощный язык запросов". Означает, что не реализован запрос на естественном языке.

Редкие склонные к программированию пользователи готовы использовать, но ради них как-то особенно стараться невозможно - в коммерческой ситуации.

б) В Рамблере формальный язык запросов есть и в новой версии мы его как-то поддержим - опять-таки из маркетинговых соображений, чтобы конкуренты и аффилиированные журналисты не глумились.

Поскольку теперь у нас будет координатная информация, мы введём в него поиск точных фраз и оператор близости. В декабре-январе.

Ну "умощнять" не будем. Время формальных запросов уходит.

Игорь Ашманов, Рамблер.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий