Документ бьется на предложения. По умолчанию все слова запроса ищутся в одном предложении. Первая порция - все слова рядом. Дальше - с расстоянием. Вот это почитайте: http://romip.narod.ru/romip2005/09_mailru.pdf
snoopckuu]
>тут видите у вас сразу - прокол, использование одной из этих БД да и вообще SQL-like поисковой машины свыше 5млн документов - не проиндексируеш.
Можно узнать, откуда это число - 5 млн.? Какая разница, сколько документов, лишь бы в базу влезли. Хоть 1 млрд. Другое дело, что скорость отработки будет ниже, чем у бинарного файла. Но можно поставить 1тыс серверов, на каждом будет работать mysql, и все прекрасно будет крутиться. Такое впечатление, что те, кто делали СУБД, вообще не смыслят в структурах данных. СУБД - готовая структура, которой очень удобно пользоваться. У Доброва в МГУ все работает на Оракл, и неплохо работает. Все зависит от задач. Если делать большую поисковую машину с временем отработки <1 сек, да, СУБД будет тяжеловата. А если делать корпоративный поиск, где можно подождать секунд 5, скорее всего, все будет хорошо. Просто базу нужно использовать как структуру для хранения документов. А выдергивать результаты, конечно, не помощью оператора like.
Кто-то из директоров Yahoo в своем блоге написал, что на одной из конференции задал вопрос человеку, занимающемуся поиском в Google, тот так и ответил. Запись была полгода назад. Может, в 2003-м еще участвовали, сейчас нет. Не могу сейчас найти ссылку, поэтому так неопределенно. Думаю, это вполне вероятно, т.к. подобные мероприятия обычно оперируют относительно "чистыми" коллекциями, исключая случаи, когда идет поиск в намеренно зашумленной - например, поиск дублей.
Возвращаясь к первоначальной теме: специалистов, способных рожать собственные технологии, улучшающие выдачу (сужу исключительно по самой выдаче), в Вебальте пока не видно.
Я имел в виду поиск по "чистой коллекции".
Остальное, написанное вами - присоединяюсь полностью. Никому не нужен еще один средний поисковик, нужен лучше. А для этого нужны люди с соответствующим опытом и желанием работать в этом направлении. А патентов - да, масса. Кстати, как-то специалист из Google сказал очень значимую фразу на вопрос "пользуются ли они результатами конференции TREC". Он ответил "нет, т.к. все эти вещи уже давно замусорены спамерами". Пока достаточно спросить у Вебальты "Яндекс" - http://www.webalta.ru/search?q=%FF%ED%E4%E5%EA%F1&city=any , и качество поиска хорошо видно. Еще можно спросить "Рамблер" - http://www.webalta.ru/search?q=%F0%E0%EC%E1%EB%E5%F0&city=any
Построить поиск среднего качества не так сложно. Будь то Вебальта или другой бренд. Теория информационного поиска существует уже лет 50, и с тех пор придумали только ссылочное ранжирование. И то, и другое вещи открытые, публикаций много, поэтому никаких чудес не будет у кого бы то ни было. Здесь придумывать ничего не нужно, работы опубликованы. Сейчас самое важное - чистота коллекции. Сделать поиск по идеальному набору документов не составлет больших проблем. Но для того, чтобы эта коллекция была хоть сколь-нибудь нормальной, ее надо очистить от: дублей, дорвеев, накруток ссылочного ранжирования и т.п. Кроме того, понять какое именно железо поставить на каждый модуль работы поисковика: поисковые роботы, индексаторы и проч. Сейчас лучший поисковик - тот, у которого выдача "чище". Борьба за релевантность в чистом виде закончилась. Какая с точки зрения пользователя разница, когда по запросу "сеть химчисток" на 1-м месте сеть "Лисичка", на 2-м - "Диана" или наоборот. А вот если там дорвеев полный лес и дублей, и прочих прелестей, тогда это имхо плохая выдача.
Это мне напоминает китайскую атомную подводную лодку с 2-мя тысячами гребцов. Руками удалять неэффектино. Нужно выявлять систему и придумывать методы автоматического подавления поиского спама, дорвеев в частности.
На сегодня, 16.08.2006 - находит. Интереснее поискать "путина" с ударением на "и". Выводится тот же набор сайтов. Есть такая замечательная вещь - омонимия, Вебальта на нее наступила по полной программе. Можно еще поискать имя "Света", результаты очень радуют %)
Такой поиск есть.
http://go.km.ru/index.asp?sq=%F2%E5%F1%F2&idr=41&ext=0&opt=0&hlp=0&idt=
Индекс не очень большой, но работает. Все виды файлов.
Даже после регистрации? Я просто регистрироваться не пробовал.
Вот это не подойдет?
https://adwords.google.com/select/KeywordToolExternal