Думаете, Google будет рекламироваться? Он ни в одной стране не давал рекламу. Только были объявления (по-моему, в Штатах) о работе в виде плакатов вдоль какого-то шоссе. На плакатах была задача. Кто найдет решение - звонит по такому-то телефону (или идет на какой-то сайт). Так Google набирал народ на работу. А рекламы поиска у них не было.
1. С чего вы взяли, что у Google нет морфологии?
http://www.google.ru/search?hl=ru&q=%D1%82%D0%B5%D1%81%D1%82&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=
Вот словоформы. На западе стандартно применяется стемминг. Может, у Google сейчас он, может, уже словарь, надо смотреть, но не в этом дело. Учет словоформ присутствует.
2. Он и без морфологии очень хорошо искал. Если было учтено не 10 млн документов по какому-либо запросу со всеми словоформами, а, к примеру, 2 млн, то ничего особо страшного в этом нет.
Вы считаете, что у Рамблера плохая выдача? Я имею в виду точку зрения не владельца/вебмастера ресурса, а точку зрения пользователя, задача которого получить на запрос адекватный ответ от поисковой системы. По каким запросам вам Рамблер не нравится? Мне кажется, у него вполне достойная выдача. Эффект Яндекса, по-моему, по большей части маркетинговый. Яндекс ассоциируется с поиском, Рамблер уже нет. Хотя по-моему Рамблер ищет очень неплохо.
Интересно именно ваше мнение по выдаче Рамблера, речь не идет о каких-то симпатиях тому или иному поисковику.
Конечно.
http://www.yandex.ru/yandsearch?stype=www&nl=0&text=%E2%E5%E1%E0%EB%FC%F2%E0
http://www.webalta.ru/search?q=%E2%E5%E1%E0%EB%FC%F2%E0
В принципе, этого достаточно, но можно еще:
http://www.yandex.ru/yandsearch?text=%E1%EE%EB%FC%F8%EE%E9+%F2%E5%E0%F2%F0&stype=www
http://www.webalta.ru/search?q=%E1%EE%EB%FC%F8%EE%E9+%F2%E5%E0%F2%F0
http://www.yandex.ru/yandsearch?text=%E4%E6%E5%ED%F1%E5%F0&stype=www
http://www.webalta.ru/search?q=%E4%E6%E5%ED%F1%E5%F0
Запросы взяты просто так, без умысла, замысла и проч. Ну очень низкий вес ссылочного. Или неумение правиль им распорядиться (в самом начале по любому запросу вверх лез Рамблер, сейчас лучше, но все равно не как нужно).
Вам часто приходится это делать? Как 123-я дополнительная возможность это хорошо, но первая задача - качество поиска. Его имхо нет.
Ночью:
1. Каналы меньше нагружены.
2. Сайты отзываются быстрее. Меньше возможности положить сайты.
Производительность пауков гораздо выше. Ночью качать выгоднее. Другое дело, что ночь в России понятие растяжимое из-за числа часовых поясов %)
Там есть такая замечательная иконка с буквой i около каждого сайта. Набрал я запрос "Яндекс" (сразу скажу, что Яндекс я очень уважаю, поэтому следующие действия не нужно воспринимать как что-то против него), получил www.yandex.ru на первом месте, нажал на кнопку и выбрал пункт "Это спам". Система съела. То же можно сделать по запросу "Вебальта", который саму Вебальту не находит. Никаких редакторов не хватит, чтобы разрести игры посетителей. Хорошая аякс-игрушка. Быстро надоест.
И второе: выдача стала забавной, но стала ли она нормальной? Выполняет ли поиск свою работу, а именно, правильно отвечать на запрос пользователя? Мне кажется, нет. Иллюстрация - все тот же запрос "Вебальта". Что толку от возможности регулировать вес ссылок и текста, когда все равно искомое не находится (контент и ссылки по умолчанию; контент=0, ссылки = максимум).
Причем, по разным словам по-разному. На "Рамблер" выдается много результатов(450 точно, дальше не смотрел), на "Яндекс" - мало (99), на "тест" только что было 200, уже 110. Может, технические проблемы... с другой стороны, так можно закрывать выдачу. Но как-то странно.
Я думаю, в случае корпоративного поиска можно все ставить на большие сервера. Если в конторе не 100 тыс. народу, которые постоянно пользуется поиском, время отработки запроса в случае СУБД будет приемлемым. Поэтому и СУБД пойдет, и Дельфи тоже. Речь же не идет о промышленном поиске.
Title можно, например, как в этой работе: http://romip.narod.ru/romip2004/05_uis_russia.pdf
Текст ссылок - сначала посчитать их ранг, потом умножать ранг на релевантность текста ссылки. Итоговую сумму поместить в общую формулу расчета релевантности. Поскольку здесь речь идет о поиске по отдельно взятому сайту, то можно ранги не считать, а выставить принудительно. По шкале 1..10 для 1-й страницы - 10, для страниц 2-го уровня - 8 и т.п. Т.е. ввести собственное ранжирование документов.