Вот русский (удмуртский) проект поисковика, с открытым исходным текстом. Был, по крайней мере, а как сейчас, после покупки его проектом Много.ру - не знаю.
UdmSearch: Web Search Engine for Your Site
http://mysearch.udm.net/
Игорь.
Спасибо за публикацию моей героической физиономии. Вот на всякий случай уточнение моей героической биографии - в виде слишком длинного резюме (нет сил укорачивать), а то некоторые должности и фирмы как-то слегка покосились. Извините за занудство и большой объём текста.
АШМАНОВ Игорь Станиславович
Личные данные: Год рождения – 1962; национальность – русский;
семейное положение – женат, трое детей;
местожительство: Россия, Москва, Ясенево
Образование и научная деятельность:
· 1978 – 1983 – обучение на Мехмате МГУ, кафедра высшей алгебры, диплом “Об асферических копредставлениях свободных групп и одной проблеме Филиппа Холла”;
· 1985 – 1987 – аспирантура на кафедре высшей алгебры Мехмата МГУ;
· 1984 – 1998 – более 30 научных и популярных публикаций по по высшей алгебре, прикладной лингвистике и информационным технологиям ;
· 1995 – защищена кандидатская диссертация (кандидат технических наук) по теме “Архитектура и промышленная реализация прикладных лингвистических систем”.
· Осень 2000 г. – настоящее время – обучение в Международной Школе Бизнеса при АНХ РФ, Курс «MBA, Стратегическое управление»
Профессиональный опыт:
Январь 2001 – настоящее время
ОАО “Рамблер Интернет-Холдинг”, Исполнительный директор
Сфера ответственности: контент и технологии, разработка и развитие портала, технологические платформы, бизнес-планы и отчётность, бизнес-процедуры, новые проекты, прочее.
Декабрь 1999 – декабрь 2000
ОАО “Рамблер Интернет-Холдинг”
Директор по технологиям (56 сотрудников)
Сфера ответственности и достижения: Построение новой технологической и контентной команды Рамблера, новая технологическая платформа, новая поисковая система, новая версия рейтинга Тор100, около 20 контентных проектов, электронная коммерция, Игры «Что?Где?Когда?» в прямом эфире и Интернете, «клоны» Рамблера в Германии и Болгарии, статистика.
Лето 1995 – осень 1999
Компания "МедиаЛингва"
Генеральный директор (40 сотрудников), партнёр
Сфера ответственности и достижения: коммерция, финансы, разработка, руководство компанией. Переговоры, договора с партнёрами, дилерами, заказчиками, издателями, лицензиатами технологий, управление изданием, продажами, маркетингом, найм персонала, пр.
Руководство проектами: “Коробочные” программы:
· Семейство электронных словарей МультиЛекс (12 CD-ROM-версий для 6 европейских языков – русский, немецкий, французский, английский, испанский, итальянский),
· Поисковая система Следопыт, Серверный Следопыт для WWW-серверов, Следопыт для MS SQL Server 7.0.
· Система автоматического аннотирования текстов Либретто,
· Система для автоматизации деловой англо-русской переписки Письмовник,
· Мультимедийный курс для иностранцев “How to Survive in Russia”
. Заказные проекты:
· Сервер переводческой памяти ТрансОфис,
· Поисковая машина для CD-ROM «Большая Советская Энцкилопедия» (Лукойл-Информ)
· Пропускная биометрическая система для банковской сферы, основанная на идентификации личности по лицу и голосу и смарт-карте,
· Система для анализа трафика телефонных звонков и окружения абонента
Технологии и корпоративные решения:
· Система доставки новостей (клиент-сервер) по Интернет/Интранет,
· Сервер аннотирования и поиска для документооборота “Серверный Следопыт”,
· Система англо-русского машинного перевода на базе интеллектуальной памяти перевода,
· Сервер автоматической классификации документов, Классификатор 1.0,
· Следопыт-Аналитик – система Text-Mining для анализа Интернет или корпоративного информационного пространства на основе полнотекстовой поисковой машины Следопыт, MS SQL Server 7.0 и MS OLAP Services.
Интернет-проекты:
· Метапоисковая система Следопыт (поиск по шести поисковым машинам с переводом естественно-языкового запроса на английский язык),
· Сетевой словарь МультиЛекс-online (трёхтомный БАРС в Интернет),· Национальная Служба Имён (адресация к ресурсам Интернет на естественном языке) – система именования, база данных, сервер и клиентский драйвер,
· Картинная галерея в Интернет,
· WWW-сервер компании,
· Сервер Особого архива (ЦХИДК) – трофейные архивы 17 стран, вывезенные во время II Мировой Войны, рубрикатор и образцы наиболее интересных документов.
Весна 1995 – лето 1997
Компания “ИСТ” Начальник отдела (5 сотрудников) Руководство русской частью 5-стороннего проекта Европейской Комиссии по автоматическому выравниванию параллельных немецко-русских текстов. Работа с партнёрами, руководством проекта, отчётность, руководство разработкой. Проект успешно завершён в 1997 г.
1991 – 1994
ЗАО “Информатик”
Руководитель отдела разработок (20 сотрудников)
Проектирование, руководство, работа с кадрами, рекламные и технические статьи, документация, перевод на английский, техническая поддержка зарубежных пользователей и дилеров, переписка с Microsoft и IBM и другими компаниями о лицензировании технологий.
Руководство проектами:
· Программа проверки правописания ОРФО (версии 2.5 – 4.0), грамматический и стилистический корректор, тезаурус,
· Русская машинная морфология ОРФО для корпорации IBM (лицензирована в 1992),
· Специальная версия лингвистических средств – проверки правописания, грамматического корректора и переносов для корпорации Microsoft (лицензирована в 1994 , входит в линейку Microsoft Word, Excel, PowerPoint в 1995-2001),
· Английская машинная морфология,
· Электронный словарь Контекст (версии 1.0 – 3.0),
· Программа подстрочного перевода Логос 1.0,
· Программа расстановки переносов Каллиграф 1.0,
· Программа полнотекстового поиска документов Сфинкс 1.0,
· Матричный калькулятор Жордан.
1987 – 1991
ЗАО “Информатик” руководитель лингвистического отдела (4 сотрудника) Руководство лингвистической и интерфейсной частью проекта ОРФО (версии 1.0 – 2.0): лингвистическое проектирование, структура данных, машинная морфология, пользовательский интерфейс, система автоматического обучения, система помощи, документация, перевод на английский.
1985 – 1999
Вычислительный Центр АН, Отдел искусственного интеллекта научный сотрудник Прикладные лингвистические системы. Выполнение исследований и отчётность по грантам ГКНТ, Миннауки, РФФИ.
1983 – 1985
Вычислительный Центр АН, Отдел искусственного интеллекта стажёр-исследователь Программирование прикладных экономических задач на PL-1.
Дополнительные сведения:
· Языки: Английский – свободно, немецкий – со словарём, церковно-славянский – чтение.
· Языки программирования (в прошлом): Си++, С, Word Basic, Basic, PL-1, Фортран
· Автомобильные права категории “В”.
· Незаконченное художественное образование.
[This message has been edited by Ashmanov (edited 09-05-2001).]
Вот исторический документ:
From: SpyLOG Basic+ [mailto:basicplus@spylog.ru]
Sent: Wednesday, April 25, 2001 3:07 PM
To: Pashko Dmitry
Subject: Вам увеличен оплаченный срок SpyLOG Basic+ на 1 месяц
Уважаемый пользователь SpyLOG Basic+!
В связи с переходом на новую версию движка и ее отладкой Администрация
системы SpyLOG, к сожалению, не может гарантировать бесперебойную
работу сервиса до 4 мая 2001 г.
Компания SpyLOG приносит вам извинения за неудобства, связанные с
возможными сбоями в работе системы. Мы рассчитываем на ваше
понимание, что любое технологическое развитие сопряжено с периодом
нестабильности работы.
В качестве компенсации за период неполной функциональности сервиса
компания SpyLOG увеличивает оплаченный вами срок использования пакета
SpyLOG Basic+ на 1 (один) месяц. По специальному запросу мы также
готовы предоставить официальное письмо, подтверждающее возможные сбои
в работе сервиса SpyLOG в период с 11 апреля по 4 мая 2001 года.
Мы уверены, что временные неудобства, связанные с непрерывным
расширением возможностей и совершенствованием сервиса SpyLOG, не
помешают нашему сотрудничеству. Мы прикладываем все силы, чтобы
максимально быстро обеспечить бесперебойную работу новой версии
системы, на базе которой мы сможем вам предложить целый ряд
дополнительных отчетов и возможностей. Среди них: идентификация Flash,
объединение страниц в группы, реальный размер окна броузера, титулы
страниц, поддержка временных зон, поддержка технологии зеркалирования
сервиса и многое другое.
На все ваши вопросы всегда готова оперативно ответить служба
технической поддержки SpyLOG. Ее адрес - support@spylog.ru
--
С уважением,
Администрация системы Интернет-статистики SpyLOG
http://www.spylog.ru
Статистика не обновляется сутками, на почту не приходит, у нас он теряет около 70% хитов и хостов. Данные в рейтинге даже близко не соответствуют данным при нажатии на "столбики" у ресурса. НО!!!
Спайлог совершил открытие века: в Рунете обнаружены анти-посетители и анти-хиты - при приходе такого анти-посетителя на сайт он аннигилирует с предыдущим позитивным посетителем.
Доказательство - в статистике: например, Яндекса за вчера в 8-20 утра было больше 100 тысяч посетителей, а на 10-30 - уже всего 56 тысяч. То же и с хитами - естественно, анти-посетитель может произвести только анти-хит.
Интересно, при этом трафик тоже аннигилируется? Тогда вышла бы большая экономия. Хотя нет, ведь анти-посетитель производит и анти-просмотр баннера! То есть вызывает потерю денег!!!
Осталось открыть посетителей-нейтрино и чёрные дыры. Впрочем, Спайлог уже приближается к этому состоянию - хиты и хосты со страшной силой уходят в него и никогда не появляются вновь. Скоро он закуклится в сфере Шварцшильда.
Подождите пока делать выводы. Спайлог уже две недели лихорадит, цифры не обновляются иногда по три дня, а иногда просто про них и сказать нечего.
В начале апреля Спайлог показывал на Рамблере около 2,400,000 хитов в день, на этой неделе порядка 1,300,000. Как это может посещаемость упасть в два раза? Естественно, наши логи и Тор100 ничего подобного не фиксируют.
Во вторник нам кураторы нашего счёта Basic+ прислали письмо с официальными извинениями за некорректность цифр, где они просят пока не обращать внимание на статистику. Обещали со среды, но пока не улучшилось.
По словам Андрея Андреева, сейчас меняют движок и запускают клон в Украине и где-то ещё, так что от клонов скопилось столько данных, что не успевают посчитать.
Мы ждём улучшений и появления хотя бы стабильных цифр в течение двух недель, но пока - увы.
Игорь Ашманов.
А для повышения релевантности и "свежести" результатов поиска. Обходить Интернет гораздо труднее и дольше, чем заиндексирвоать 60 тысяч самых популярных и гарантированно "живых" сайтов.
А что это значит - растолкуйте поподробнее. Что такое стиль и какой стиль у каждой из команд? Я, честно, не знаю, и было бы интересно услышать мнение со стороны.
И ещё, Александр - откуда Вы берёте сведения? С нами Вы вроде не общаетесь, следовательно, Вы близко знаете команду Яндекса? А про наш стиль откуда знаете?
Мне действительно интересно.
Тут придётся рассказать общую теорию всего.
На форуме так подробно не ответишь. Для этого нужно роман писать. Или на крайний случай - статью.
Если хотите - возьмите электрическое интервью, а потом здесь опубликуйте в статьях. Так и превратитесь в сетевое издание. Другие так и делают.
Соберётесь - пришлите вопросы на ashmanov@rambler.ru, а я со временем отвечу.
Кстати, сеньор Грей, а что это за упражнения с "научными" степенями участников? В прошлый раз был "опытный", "начинающий" и прочее, потом мелькнули ещё какие-то определения, кажется, а теперь пошли абитуриенты и аспиранты.
А может, не всем нравятся эти ярлыки? Что это я хожу в аспирантах!!! Да я, с позволения сказать, ваще кандидат наук, чисто конкретно!!!
Или нечего выпендриваться - что дали, то и носи? В следующий раз тогда нужно взять шкалу уголовную "шестёрка, пацан, бугор, пахан, в законе (администратор), что там ещё" или медицинскую/ветеринарную/...
Или: мизинец, безымянный, средний,..., большой.
рядовой, старшина, лейтенант, ..., главнокомандующий.
Да мало ли шкал.
Кстати, уже серьёзно - а прочие надписи нельзя русифицировать?
Да пишите больше!!! Чем больше Вы найдёте ошибок, тем лучше.
Про мозоль - не соответствует действительности, поскольку в мою задачу не входит навешивание лапши, и мозоли у меня на самом деле нет. Я же знаю положение лучше вас и и сам могу десятки подобных примеров привести. Ругань внутри Рамблера - сильнее ругани снаружи.
Да, мы всё ещё отстаём от Яндекса по полноте, иногда по релевантности, но градиент нормальный - догоняем.
А какой конкретно сайт не видно в результатах?