Пресс релиз рамблера

123
I
На сайте с 15.12.2000
Offline
80
#11

"обработав за сутки 603 гигабайта документов, хотя и это не предел"

Влад, правильно ли я понимаю, что под словом "обработка" здесь понимается копирование по локальной сети.

С уважением,

Илья

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#12

Влад, добрый вечер! Куда вы пропали с форума?

K
На сайте с 27.11.2000
Offline
80
#13
Как писал Gray
Вот это стартовое распределение оказывается недостоверным.

Сергей, но ведь это - все равно что пенять на недостатки устройства, скажем, сети Интернет :). Да, недостатки у Сети есть. Есть они и у счетчика top100. Но почему-то лучше Интернета и объективнее счетчика top100 пока ничего не придумали :).

Кроме того, высказывание выглядит, как бы это сказать... Несколько голословным :).

С уважением, Андрей Коваленко aka Keva
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#14
Но почему-то ... объективнее счетчика top100 пока ничего не придумали

Ну, это не просто спорное утверждение, это вообще не совсем утверждение, Андрей. Если показания счетчика есть свидетельство объективной ценности ресурса, то данный сайт намного менее ценен любой системы активной накрутки. При всей своей скромности я с этим не согласен :).

Кроме того, высказывание выглядит, как бы это сказать... Несколько голословным

Ну, почему же... Если в качестве начальных значений PR брать данные о посещаемости, имеющиеся сейчас, то перекос будет обязательно. Накрутка-то действительно серьезно развита.

В подсчете коэфф. популярности мы можем дать накруточным
посетителям знак минус.

Забавно, так вам они известны? Почему бы их не просто не считать на рейтинге, вместо того, чтобы вычищать их при расчетах?

V
На сайте с 20.06.2001
Offline
24
vs
#15
Как писал iseg
"обработав за сутки 603 гигабайта документов, хотя и это не предел"

Влад, правильно ли я понимаю, что под словом "обработка" здесь понимается копирование по локальной сети.

С уважением,
Илья

Правильно, но лишь отчасти :-))

Сейчас попробую расписать поподробнее.

Как некоторые уже, наверное, знают, робот Рамблера "стаскивает" страницы из Интернета в локальное хранилище, а вся последующая работа идет уже с этим хранилищем. Хранилище состоит из 50-мб кусков, в которых "свалены" сжатые HTML-ки.

Страницы в хранилище живут вечно, до тех пор, пока не появится новая версия страницы или не придет от робота запись о том, что на момент времени t страницы больше не существует (это у нас называется антидокумент). Но вернемся к делу.

Итак, когда на прошлой неделе мы собрались запустить индексатор, оказалось, что в хранилище накопилась дельта объемом 130 Гб. То есть, примерно 520 Мб несжатых HTML (коэффициент сжатия 3.9).

Мы запустили на 29 серверах по 2 процесса индексирования, которые занимаются тем, что в цикле обращаются к специальному балансировщику, получают от него очередную 50-мб порцию из хранилища (копируют по сети) и ее обрабатывают - распаковывают, разбирают HTML, детектируют кодовую страницу, морфологизируют, выполняют небольшой синтаксический анализ, строят информацию для цитирования, "душат" спаммерские фрагменты и т. д. В результате каждый из процессов порождает поисковый индекс по своей части хранилища. Индексы по формату идентичны "боевому" поисковому индексу.

130 Гб дельту эта группа серверов "смолотила" за 20 часов. Запустили вечером, а дорботала - на следующий день, к обеду. При этом сервера еще и запросы поисковые отрабатывали. На выходных индексирование должно идти побыстрее.

После того, как частичные индексы построены, запускается специальная программа "сливатор", которая параллельно читает отсортированные списки, из которых, собственно, и состоят индексы, и строит результирующий суммарный индекс. Время работы сливатора в основном зависит от размера результата: нам более-менее все равно, сколько частичных индексов доливать к основному. Сливатор работает примерно

25-30 часов. Иногда таблицы перенумерации документов, которые он строит и затем использует, становятся настолько большими, что перестают помещаться в памяти. Тогда нам приходится строить промежуточные индексы (четвертьфинал, полуфинал, финал, суперфинал и т. д.). В этом случае время слияния увеличивается пропорционально количеству уровней.

Скорость работы сливатора нас вполне устраивает, так как там интеллектуальной обработки никакой не планируется - только головоломный алгоритм слияния документов с перенумерацией, склейкой дублей, удалением "умерших" страниц и т. д. А вот скорость индексирования (того, чем занимались 29 серверов) для нас имеет большое значение, так как именно в это место и хочется положить побольше "умных" алгоритмов. Например, мы можем отфильтровывать дизайн (повторяющиеся на всех страницах сайта куски HTML) или исполнять JavaScript. Да мало ли еще чего.

Эксплуатировать такой комплекс индексатор/сливатор довольно удобно - нам почти все равно, добавить дельту в существующий индекс, или выкинуть его и построить все "с чистого листа". Поэтому мы можем, например, менять его формат. Что мы, собственно, и делаем - сейчас выкатим индекс в немного обновленном формате, а через 2-3 недели - в сильно переделанном (если успеем все ошибки в новом коде исправить. Не успеем - еще 2 недели поживем на существующем формате).

Именно это событие мы и пиарили - 130 Гб дельты из хранилища 58 процессов индексирования, исполнявшиеся параллельно на 29 серверах, заиндексировали за 20 часов. Если интересно, могу аналогично расписать и без малого 7 миллионов страниц, которые наши роботы скачали 24 ноября.

С уважением,

Влад

С уважением, Влад Шабанов vs@rambler-co.ru
V
На сайте с 20.06.2001
Offline
24
vs
#16
Как писал Gray

Забавно, так вам они известны? Почему бы их не просто не считать на рейтинге, вместо того, чтобы вычищать их при расчетах?

На это у нас двадцать причин :-)

Во первых, нет снарядов :-) мы некоторые числа не можем считать в реальном времени, а счетчик в обратную сторону "тикать" у нас не обучен.

Во вторых, нам не очень хочется давать обратную связь этим самым накрутчикам.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#17

Ух ты... Ну и лекция...

Влад, я правильно понял, что фактически вы держите два индекса - дельту и собственно индекс? Если да, то, практически, переиндексация всей базы занимает сутки, грубо говоря? У меня, честно говоря, возникло ощущение избыточной мощности.

Именно это событие мы и пиарили - 130 Гб дельты из хранилища 58 процессов индексирования, исполнявшиеся параллельно на 29 серверах, заиндексировали за 20 часов.

Хм... Вот и вышло, что так пиарили, что никто не понял, что именно пиарили. Хотя, конечно, пресс-релиз и не должен содержать много умных слов - не поймет никто.

Во первых, нет снарядов

Похоже, это девиз "Рамблера" :). Именно так выразился и Андрей, когда я его расспрашивал.

нам не очень хочется давать обратную связь этим самым накрутчикам

А итоге делается двойная работа. Сначала числа пишутся, а потом выделяются и отбрасываются. Хотя я не имел в виду полный обсчет статистики - в первом приближении достаточно четкого регламента и неукоснительного модерирования. А уж дальше можно и программно поработать.

В
На сайте с 19.11.2002
Offline
8
#18
Как писал Ashmanov
Замечу, что среди поисковиков Рамблер находится в исключительном положении, имея рейтинг Тор100. Полмилиона или миллион кликов в день, причём тематически рубрицированных - это хороший материал для статистики предпочтений пользователей.
Каталоги поисковиков такой посещаемости не имеют.

Игорь, замечу, что картина с посещаемостью каталогов довольно сильно изменилась за последний год. Если раньше посещаемость действительно была 5:1, то сейчас она 6:5 (точнее, 648:589 по показанным страницам).

http://top100.rambler.ru/cgi-bin/stats_top100.cgi?id=208383&page=2&subpage=2&datarange=0&site=1

http://stat.yandex.ru/index.xhtml?Prj=16&Age=d

Качество каталогов здесь не обсуждаю, а с точки зрения трафикогенерации каталог Яндекса должен был, по идее, здорово подняться в логах.

Интересно, видно ли это по логам присутствующих на форуме сайтов?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#19
Интересно, видно ли это по логам присутствующих на форуме сайтов?

Слава богу, сайты сюда еще не ходят, только живые люди :). Мне это не видно. Впрочем, я бы не стал преувеличивать и роль топ100 в генерации траффика.

VT
На сайте с 27.01.2001
Offline
130
#20
Как писал Keva
Да, недостатки у Сети есть. Есть они и у счетчика top100. Но почему-то лучше Интернета и объективнее счетчика top100 пока ничего не придумали .

А не возникала ли идея пойти еще дальше и обрабатывать поисковые фразы других поисковиков, по которым на сайт приходят люди? Их можно спокойно взять из статистики top100 и попробовать расширить ими область видимости каждого сайта.

Возможно, при правильном подходе это позволило бы использовать более высокие показатели свежести поисковых баз других искалок и повысить релевантность выдачи. Скажем, если пользователи по определенным запросам в большом количестве приходят на какой-то сайт с того же Яндекса или Гугла, а у вас он уже давно затерялся где-то в дельте, то там вполне может быть что-то интересное пользователю и такая примесь может быть оправданной.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий