Потому что в области распределения ресурсов для благотворительностей CAF - абсолютный, заслуженный, старейший (с 1993 года) игрок, фактически монополист. Я не знаю фонда (простите, если я ошибаюсь), сравнимого с ними по количеству поддержанных программ, по распространенности в регионах, по возрасту и репутации. Есть популярное нытье о зарплатах и штате - но никто пока не доказал, что это в таких масштабах можно делать иначе.
Кстати и Герману CAF тоже помогал и помогает. (если я не ошибаюсь). По крайне мере на их сайте что про Мурзиков есть. (видел их в CAF-овском журнале Деньги и Благотворительность).
Но ни у Мурзиков (да простит меня Герман, которого я очень уважаю) , ни у Яндекса ни у МБС (который м.б. претендует на роль КАФа в будущем, но уж никак не год назад, когда Яндекс затеял этот проект) нет ресурсов на эту работу: ни умений, ни специальной заточенности, ни штата. А работа - неслабая: собирать сотни (тысячи?)заявок и отбирать лучшие и делать это постоянно из месяца в месяц, из года в год, и следить за вменяемостью и порядочностью и т.д. и т.п.
Что касается иностранного происхождения фонда, то оно вполне объяснимо: увы, но в первые годы после перестройки благотворителями были в основном иностранные компании, а с ними надо было разговаривать на понятном им языке, желательно уже имея заработанную раньше (в Британии) репутацию.
... в мультитредовом окружении ...
В однотредовом сильно медленнее.
И потом: все зависит от теста, я могу написать такой тест, что все будет ровно наоборот.
Иными словами: для разных задач разные string-и могут оказаться лучше или хуже.
Спасибо за поправку.
Примем 100 тысяч документов по 10к текста в среднем,
полнотекстовый индекс ~30%, итого весь индекс занимает 300 мегабайт, словарь ~3-5% то есть мегабайт 10-15. Т.о. полное кеширование словаря наступает уже при объеме памяти в районе 32-64 мегабайт. Но это и не требовалось тогда: для одного поиска нужно грубо 1-2 обращения к диску, то есть даже при тех еще скоростях дискового seek-а можно было укладываться в несколько запроов в секунду.
В общем ничто не опровергает теорему существования. Даже в 1993 году.
Еще раз повторюсь, производительность, указываемая в выходных данных обсуждаемого продукта, вызывала и продолжает (даже с стотысячедокументным пределом) вызывать много вопросов.
По моим ощущениям 1 современный сервер должен уверенно держать (грубо) 10 миллионов документов. (тем более в корпоративных сетях не бывает серьезного потока запросов).
Иными словами: при равенстве цен на 1 сервер (на самом деле G.Mini дороже в бешеные разы) можно вместо установки 100 G/Mini ставить 1 Y/Server
Для справки назову текущие наши цифры по Y.Server-у, стоящему на разных проектах
Y.Почта: ~50 млн документов на 1 машину (в 4 шардах, там маленькие документы и мало запросов)
Y.ППБ (поиск по блогам): ~6 млн документов на 1 машину
Важно: я не считаю Y.Сервер идеально супер-вылизанным и супер-производительным продуктом.
Цифры, которые мне гворили в Y! (по ядру бывего Inktomi), да и цифры Fast-а (Fast Data Search) как минимум НЕ ХУЖЕ (точнее несколько лучше наших) по производительности и индексации и поиска. (хотя я и не считаю, что это прирост в критической зоне).
Но! то, что заявляется в G/Mini - это какой-то ужас: разница в 100 раз (!) -- не нормальна: здесь что-то не так.
Ну почему же?
http://company.yandex.ru/blog/?msg=100062
29 сентября 2005 года
Опубликованы работы по программе научных стипендий Яндекса за 2004-2005 год
Мы выложили на сайт работы, которые вошли в сборник Интернет-Математика-2005. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г.
Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная, от нас: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу.
Вообще говоря, для 50 тысяч документов должен мог бы подойти и IBM PC AT 386 MHz, с 33 мегабайтами памяти. Масса софта (включая наш) работали в начале 90-х на таком железе и вполне держали базы по 100 тысяч документов со скоростью ответа до секунды на любой запрос.
Что касается параллелизации исполнения запроса на рядовых компьютерах, то пионером здесь была Inktomi в 1996 году.
Я не понимаю, что может вызвать восхищение в этом (судя по характеристикам) исключительно слабо написанном софте.
Был в коротком отпуске, совмещенном с общественной работой (возили детей во Францию), поэтому отвечаю не вовремя, извините.
Спасибо всем большое за поздравления. Буду стараться соответствовать хорошим словам, которые конечно очень приятно слышать.
Что касается появлений на форуме: он очень вырос, основные ветки не успеваю даже читать. Читаю постоянно только "Поисковые технологии".
С уважением,
Илья
Любому коммерческому сайту с базой данных нужно больше: classifieds, auto, realty, job и т.д. и т.п.
50 тысяч это обычно еле-еле и уж конечно БЕЗ архива. То есть, скажем, нельзя будет узнать, давал ли данный человек резюме год назад.
А где можно посмотреть на поиск по блогам от Google? Ну чтобы понять с чем именно мы рОвнялись?
Номера вполне достаточно, чтобы понять прошла ли ваша заявка. Фамилии наверное тоже опубликуем, чуть позже.
Что касается денег и условий:
...
Всем контактным лицам, указанным в прошедших конкурс заявках, в срок до 17 декабря будут высланы по электронной почте уведомления о дальнейшей процедуре.
http://company.yandex.ru/grant/result1.xml
Какая?