красота. т.е. вместо того, чтобы извиниться за ваше оскорбительное замечание о том, что у меня нет мозгов, вы мне предлагаете извиняться за то, что у меня якобы нет чувства юмора?
хорошо, мне не трудно. извините, пожалуйста.
политику и политиков обсуждать не готов, а 24 миллиона страниц брину и пейджу нужно было, чтобы посчитать pagerank. его нельзя посчитать более-менее точно на малом количестве документов, нужно, чтобы их было много, иначе можно много ссылок пропустить и занизить рейтинг хороших ресурсов (и, наоборот, завысить рейтинг плохих).
и еще. знаете, в научных исследованиях есть такое понятие "научная новизна". это когда ты делаешь что-то новое, а не что-то, чтобы доказать пользователю Phantom, что у тебя есть мозги. так вот, какая научная новизна того, чтобы проиндексировать документы? вроде тема давно изъезжена, столько статей и книг (чуть ли не учебников) на эту тему есть...
вот мы попытались сделать что-то новое, а тут нам говорят, что не есть хорошо пользоваться уже готовым. может быть эйнштейн плохо сделал, что воспользовался уравнениями лоренца? или лоренц плохо сделал, что воспользовался уравнениями максвела (надо было свои придумать)? или крылатая фраза ньютона "я стоял на плечах гигантов" -- это цинизм? не хочу сравнивать себя с этими действительно великими учеными, просто объясняю, что такое наука -- там не делают одно и то же, чтобы было *свое* (как это часто происходит в коммерции), а придумывают что-то новое...
ок, сколько времени, по вашему, займет выкачать 24 миллиона документов (столько, сколько брин с пейджем на спонсорской технике выкачали), распарсить их и проиндексировать на самом захудалом пне (моя оценка -- 1 год, по одной секунде на документ, а ваша какая?).
и, кстати, оскорблять участников форума -- это в его традициях?
вы мне мое интервью советуете почитать? :-) можете дать телефончик инвестора, на которого это интервью подействует как лохотрон? :-) а то я то так знаю, что перевелись нынче инвесторы, вообще никуда ничего не вкладывают (в россии), может вы знаете таких? :-)
а про самим что-нть сделать -- ну вроде как я к мейлру не самое последнее отношение имею (поишите про меня на Nigma.ru :-), так что делать умею, а про поиск -- ну а реально за 2.5 месяца сделать свой движок? и на какие шиши технику для этого движка покупать (вы ж не будете утверждать, что можно поисковый движок сделать на десктопе)?
цель в том, чтобы создать хорошую технологию и, в результате, например, защитить диссертацию. а касательно денег -- ну уж что-нть придумаем, главное, чтобы технология была стоящая.
так можно было написать в ответ на статью брина и пейджа 98-го года -- "не вижу причин для обсуждения тривиального алгоритма поиска, с небольшим косметическим причесыванием сортировки результатов и выдачи за "великое достижение научной мысли".
мы ведь только начали работу... что будет потом -- посмотрим.
ну в части выкидывания похожих документов мы не лучше гугла (и мы, и гугл этого не делаем), но вот наша кластеризация гораздо лучше, чем у гугла (это предложение истинно с математической точки, т.к. у гугла нет кластеризации -- пустое множество обладает всеми свойствами, говаривал нам на первом курсе лектор-алкаш парфенов ;) )
замазали :)
так в гугле ж то же самое. вам гугл не нравится? :)
вот-вот :) загнать, понимаешь, все страницы из http://www.edinros.ru/ в один документ с заголовком "Слава Путину" и телом "EOM" :)
ну вообще они и побежали -- им-то что, немножно, но дополнительного трафика получить будет всегда приятно. а на банкет позову, если вы в Москве :)