iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Rowdy:
почему CAF, почему британский фонд, даже пусть и имеющий представительство в России?

Потому что в области распределения ресурсов для благотворительностей CAF - абсолютный, заслуженный, старейший (с 1993 года) игрок, фактически монополист. Я не знаю фонда (простите, если я ошибаюсь), сравнимого с ними по количеству поддержанных программ, по распространенности в регионах, по возрасту и репутации. Есть популярное нытье о зарплатах и штате - но никто пока не доказал, что это в таких масштабах можно делать иначе.

Кстати и Герману CAF тоже помогал и помогает. (если я не ошибаюсь). По крайне мере на их сайте что про Мурзиков есть. (видел их в CAF-овском журнале Деньги и Благотворительность).

Но ни у Мурзиков (да простит меня Герман, которого я очень уважаю) , ни у Яндекса ни у МБС (который м.б. претендует на роль КАФа в будущем, но уж никак не год назад, когда Яндекс затеял этот проект) нет ресурсов на эту работу: ни умений, ни специальной заточенности, ни штата. А работа - неслабая: собирать сотни (тысячи?)заявок и отбирать лучшие и делать это постоянно из месяца в месяц, из года в год, и следить за вменяемостью и порядочностью и т.д. и т.п.

Что касается иностранного происхождения фонда, то оно вполне объяснимо: увы, но в первые годы после перестройки благотворителями были в основном иностранные компании, а с ними надо было разговаривать на понятном им языке, желательно уже имея заработанную раньше (в Британии) репутацию.

itman:
По-крайней мере, она сильно быстрее GNU string под FreeBSD и Linux.

... в мультитредовом окружении ...

В однотредовом сильно медленнее.

И потом: все зависит от теста, я могу написать такой тест, что все будет ровно наоборот.

Иными словами: для разных задач разные string-и могут оказаться лучше или хуже.

antono:
8 мегабайтами памяти более близко к истине

Спасибо за поправку.

Примем 100 тысяч документов по 10к текста в среднем,

полнотекстовый индекс ~30%, итого весь индекс занимает 300 мегабайт, словарь ~3-5% то есть мегабайт 10-15. Т.о. полное кеширование словаря наступает уже при объеме памяти в районе 32-64 мегабайт. Но это и не требовалось тогда: для одного поиска нужно грубо 1-2 обращения к диску, то есть даже при тех еще скоростях дискового seek-а можно было укладываться в несколько запроов в секунду.

В общем ничто не опровергает теорему существования. Даже в 1993 году.

Еще раз повторюсь, производительность, указываемая в выходных данных обсуждаемого продукта, вызывала и продолжает (даже с стотысячедокументным пределом) вызывать много вопросов.

По моим ощущениям 1 современный сервер должен уверенно держать (грубо) 10 миллионов документов. (тем более в корпоративных сетях не бывает серьезного потока запросов).

Иными словами: при равенстве цен на 1 сервер (на самом деле G.Mini дороже в бешеные разы) можно вместо установки 100 G/Mini ставить 1 Y/Server

Для справки назову текущие наши цифры по Y.Server-у, стоящему на разных проектах

Y.Почта: ~50 млн документов на 1 машину (в 4 шардах, там маленькие документы и мало запросов)

Y.ППБ (поиск по блогам): ~6 млн документов на 1 машину

Важно: я не считаю Y.Сервер идеально супер-вылизанным и супер-производительным продуктом.

Цифры, которые мне гворили в Y! (по ядру бывего Inktomi), да и цифры Fast-а (Fast Data Search) как минимум НЕ ХУЖЕ (точнее несколько лучше наших) по производительности и индексации и поиска. (хотя я и не считаю, что это прирост в критической зоне).

Но! то, что заявляется в G/Mini - это какой-то ужас: разница в 100 раз (!) -- не нормальна: здесь что-то не так.

HeavenSeven:
Год назад компания Яндекс учреждала стипендии. К сожалению, с тех пор новой информации не появляется.

Ну почему же?

http://company.yandex.ru/blog/?msg=100062

29 сентября 2005 года

Опубликованы работы по программе научных стипендий Яндекса за 2004-2005 год

Мы выложили на сайт работы, которые вошли в сборник Интернет-Математика-2005. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г.

Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная, от нас: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу.

absolut:
В продолжении темы, что же именно представляет из себя сам сервер - http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=3
сервер работает на сервере Gigabyte с процессором Pentium III-S 1.26Ghz, с 2Gb PC133 памяти и винчестером Seagate

Вообще говоря, для 50 тысяч документов должен мог бы подойти и IBM PC AT 386 MHz, с 33 мегабайтами памяти. Масса софта (включая наш) работали в начале 90-х на таком железе и вполне держали базы по 100 тысяч документов со скоростью ответа до секунды на любой запрос.

Что касается параллелизации исполнения запроса на рядовых компьютерах, то пионером здесь была Inktomi в 1996 году.

Я не понимаю, что может вызвать восхищение в этом (судя по характеристикам) исключительно слабо написанном софте.

Был в коротком отпуске, совмещенном с общественной работой (возили детей во Францию), поэтому отвечаю не вовремя, извините.

Спасибо всем большое за поздравления. Буду стараться соответствовать хорошим словам, которые конечно очень приятно слышать.

Что касается появлений на форуме: он очень вырос, основные ветки не успеваю даже читать. Читаю постоянно только "Поисковые технологии".

С уважением,

Илья

Как писал Vyacheslav Tikhonov

Да, 50 тысяч - это не очень много.

Любому коммерческому сайту с базой данных нужно больше: classifieds, auto, realty, job и т.д. и т.п.

50 тысяч это обычно еле-еле и уж конечно БЕЗ архива. То есть, скажем, нельзя будет узнать, давал ли данный человек резюме год назад.

Как писал Psiho
... ровняется на Google ...

А где можно посмотреть на поиск по блогам от Google? Ну чтобы понять с чем именно мы рОвнялись?

Как писал walker
ни фамилий, ни денег, ни условий

Номера вполне достаточно, чтобы понять прошла ли ваша заявка. Фамилии наверное тоже опубликуем, чуть позже.

Что касается денег и условий:

...

Всем контактным лицам, указанным в прошедших конкурс заявках, в срок до 17 декабря будут высланы по электронной почте уведомления о дальнейшей процедуре.

...

http://company.yandex.ru/grant/result1.xml

Какая?

Всего: 442