vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик

<font face="Verdana" size="2">Originally posted by ewspam:
10 ударов по почкам роботу поисковика

</font>

Ну, типичный договор оферты - robots.txt.

Что характерно, роботы его выполняют.

Влад

<font face="Verdana" size="2">Originally posted by AiK:

З.Ы: читал тут статейку, в которой ребята говорили что за 58 дней утянули ссылки с 328 миллионов страниц. Думаю, что за половину этого срока вы можете проверить живы ли ссылки в базе Рамблера или нет, глядишь и место освободится

С уважением,
Артём.
</font>

Ну, наш рекорд - полная переиндексация

примерно 450 Гб HTML на 10 машинах за 4

суток (время выкачивания из Инета сюда не

входит, паук качает примерно по 40-50 Гб

в сутки). При этом и ссылки извлечены и

дубли поклеены - осталось результаты этих

индексаций объединить и "закатать" на

поисковики. Только вот из-за проблем с

местом на серверах это напоминает игру в 15.

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by AiK:

...
Видимо проблемы поиска теперь Рамблер волнуют мало, они перестройкой занимаются

</font>

Да нет, Артем, проблемы поиска нас еще как

волнуют. Задержки с обновлением базы у нас

действительно большие. Дело в том, что

последние полгода мы были вынуждены

"впихивать" непрерывно разрастающуюся базу в

имеющиеся у нас 15 серверов (в Yandex, если

не ошибаюсь, их 40). В результате

"перестройки", о которой Вы говорите, должно

случиться обновление техники, а как только

оно произойдет (прогноз - 2-3 недели), мы

сможем обновлять индекс раз в 2 недели.

Очень меня удивил вопрос про морфологию

(tsv, Сергей Тырин). Что, собственно, не

нравится? Приведите, пож-ста, примеры.

Изменение в top100 - мы отошли от идеи

упроядочивания первой пятерки исключительно

по посещаемости. Сейчас при ранжировании

учитывается и посещаемость и релевантность.

Подробно описывать, как выполяется

смешивание, сейчас не хотелось бы - оно еще

несколько раз может измениться.

Учет ссылок при поиске у нас уже готов,

сейчас эта технология обкатывается внутри

компании. Как только мы решим проблемы с

серверами, опубликуем ее "в бой".

Вообще-то, ссылочное ранжирование, как и

подмешивание top100, штука специфическая,

и может давать странные результаты. Поищите,

например, Яндексом слово "тут". Или "казлы"

(Найдете Бритни Спирс :-). Таких примеров

много можно привести.

С уважением,

Владислав Шабанов

[This message has been edited by vs (edited 12-10-2001).]

Посмотрите, например, книжку Белоногова

(название было выше) - там написано, как

это программировать, все таблицы есть. Хотя,

конечно же, чтобы серьезно всем этим

заниматься, надо почитать вступительную

статью к словарю Зализняка, сам словарь, и

еще сколько-то книжек про русский язык

(Розенталь, ...)

Влад

Посмотрите, например, книжку Белоногова

(название было выше) - там написано, как

это программировать, все таблицы есть. Хотя,

конечно же, чтобы серьезно всем этим

заниматься, надо почитать вступительную

статью к словарю Зализняка, сам словарь, и

еще сколько-то книжек про русский язык

(Розенталь, ...)

Влад

Ну, накрутить top100 мало у кого получается.

Для многих, накрутить top100 так, чтобы

попасть в первую десятку, - предел мечтаний.

Так что, вряд ли наше изменение в

подмешивании такой уж сильный дополнительный

стимул.

А про функции - мы возьмем top100, индекс,

логи и еще пару технологий, мелко пошинкуем,

помешаем, посолим и т. д. :-) Короче -

когда сделаем, ни от кого скрывать не будем.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 03-10-2001).]

[This message has been edited by vs (edited 03-10-2001).]

<font face="Verdana" size="2">Originally posted by baranov:
А как обычно поступают со знакомыми словами? Словарь?</font>

Морфология имени А. Коваленко.

См. http://linguist.nm.ru

Влад

<font face="Verdana" size="2">Originally posted by baranov:
А как обычно поступают со знакомыми словами? Словарь?</font>

Морфология имени А. Коваленко.

См. http://linguist.nm.ru

Влад

<font face="Verdana" size="2">Originally posted by Professor:
У меня ощущение, что CY обновляется не каждый день, а как сказал Илья Сегалович - раз в две недели: иногда замечаешь очень сильный или резкий всплекс посещаемости ...</font>

Ощущение странное. Наверное, Илья имеет

какое-то отношение к Яндексу :-)

Влад

Про подмешивание top100.

В нынешнем виде подмешивание, скорее всего,

проживет недолго. Уж очень мноие стали

пользоваться аннотациями указанным выше

способом. На днях появится лимит

посещаемости, ниже которого сайт в принципе

не подмешивается. Ну, и еще мы собираемся в

ближайшее время сделать поиск по этим самым

аннотациям более строгим.

Еще чуть позже мы подмешивание заменим

другими функциями.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 03-10-2001).]

Всего: 129