Ну вот Рамблер написан на C, C++, какие-то места - на perl. Dr. Livsi, бывающий здесь, кажется, распространял алявный локальный поиск на perlе. Так что - на чем угодно пишутся.
Вообще говоря, по аналогии с Яндексом и Рамблером.
Сайты ранжируются в соответствии с наличием на них релевантных документов. Чем больше релевантных документов на сайте, тем он раньше находится в поисковой выдаче.
При ранжировании документов, очевидно, в расчет берется количество вхождений поискового терма в документе, области, где он встречается, например, Title. Также "работает" повышение веса при совпадении формы слова.
Формально самым релевантным будет документ, который содержит запрос в точности в заголовке, причем несколько раз. Однако действуют механизмы, которые такие вещи отлавливают.
Есть интеграция с каталогом - в свое время наблюдал не особо релевантные формально сайты на высоких позициях, взятые из каталога Меты.
Есть, наверное, самый мощный каталог сайтов Украины.
Используется или нет ссылочное ранжирование - не знаю. Правильнее задать вопрос Лексусу - он тут бывает.
Здесь много их http://www.meta.ua/es/
Вообще говоря, почти все его имеют, и у всех есть ссылка с "головы" на описание синтаксиса.
Яndex
Рамблер
Апорт
Мета
Кстати, расширенные языки запросов у них в целом похожи.
Поисковик неморфологический, однако использует вероятностное усечение справа, т. е. по запросу "рада" находит "радио", хотя... Верховна Рада по парадигме с наслением Попова никак не связана. См. http://www.uaplus.com/search?l=ru&q=%F0%E0%E4%E0.
Запрос вычисляется, по их собственным данным, 7 секунд - непозволительно. При почти полном отсутствии искателей - тем более.
Проект пока сырой.
Серег, а я тебе объясню :-) Самый беспредел быс в эпоху ДОСа, когда каждый мерзавец считал своим долгом написать свой драйвер клавиатуры и русификатор дисплюя :-) Бага в Нортон Коммандере - он "глотал" русскую "р" в альтернативной кодировке - повлекла за собой рождение кучи драйверов клавиатуры, котореы вместо русской "р" вляпывали латинскую "p".
Дальше пришли "винды", и опять было сделано несколько таких драйверов.
С тех пор осталось достаточно много документов, практически все официальные - из их числа. А искать их нам надо...
Сейчас пока никак, однако мы над этим работаем :)
Илья, пардон, а кому и напуркуя может понадобиться искать, скажем, документы, в которых слово 'бендикc' написано с латинским 'c'? :)
Да. Это делается не только при обработке запроса, но и при индексировании. И прежде всего именно при нем.
Кcтaти, вoт этa фpaзa сoдepжит кyчy лaтинcкиx cимвoлoв :)
Да, при обработке текста лингвистическим процессором делается допущение, что некоторые символы в русском слове могут бытиь замененты сходными по начертанию латинскими.
Да, это, действительно, очень хорошо :)