statev

Рейтинг
17
Регистрация
17.10.2005
siegfried:

Как обычно реализуются индексы для того чтобы можно было учитывать расстояние между словами?

Документ бьется на предложения. По умолчанию все слова запроса ищутся в одном предложении. Первая порция - все слова рядом. Дальше - с расстоянием. Вот это почитайте: http://romip.narod.ru/romip2005/09_mailru.pdf

snoopckuu]

>тут видите у вас сразу - прокол, использование одной из этих БД да и вообще SQL-like поисковой машины свыше 5млн документов - не проиндексируеш.

Можно узнать, откуда это число - 5 млн.? Какая разница, сколько документов, лишь бы в базу влезли. Хоть 1 млрд. Другое дело, что скорость отработки будет ниже, чем у бинарного файла. Но можно поставить 1тыс серверов, на каждом будет работать mysql, и все прекрасно будет крутиться. Такое впечатление, что те, кто делали СУБД, вообще не смыслят в структурах данных. СУБД - готовая структура, которой очень удобно пользоваться. У Доброва в МГУ все работает на Оракл, и неплохо работает. Все зависит от задач. Если делать большую поисковую машину с временем отработки <1 сек, да, СУБД будет тяжеловата. А если делать корпоративный поиск, где можно подождать секунд 5, скорее всего, все будет хорошо. Просто базу нужно использовать как структуру для хранения документов. А выдергивать результаты, конечно, не помощью оператора like.

Maxime:
Простите, а что это был за "специалист из Google" ?

Кто-то из директоров Yahoo в своем блоге написал, что на одной из конференции задал вопрос человеку, занимающемуся поиском в Google, тот так и ответил. Запись была полгода назад. Может, в 2003-м еще участвовали, сейчас нет. Не могу сейчас найти ссылку, поэтому так неопределенно. Думаю, это вполне вероятно, т.к. подобные мероприятия обычно оперируют относительно "чистыми" коллекциями, исключая случаи, когда идет поиск в намеренно зашумленной - например, поиск дублей.

Возвращаясь к первоначальной теме: специалистов, способных рожать собственные технологии, улучшающие выдачу (сужу исключительно по самой выдаче), в Вебальте пока не видно.

Maxime:
У вас сильно упрощенно-наивный взгляд, этот "...с тех пор придумали только ссылочное ранжирование." :)

Я имел в виду поиск по "чистой коллекции".

Остальное, написанное вами - присоединяюсь полностью. Никому не нужен еще один средний поисковик, нужен лучше. А для этого нужны люди с соответствующим опытом и желанием работать в этом направлении. А патентов - да, масса. Кстати, как-то специалист из Google сказал очень значимую фразу на вопрос "пользуются ли они результатами конференции TREC". Он ответил "нет, т.к. все эти вещи уже давно замусорены спамерами". Пока достаточно спросить у Вебальты "Яндекс" - http://www.webalta.ru/search?q=%FF%ED%E4%E5%EA%F1&city=any , и качество поиска хорошо видно. Еще можно спросить "Рамблер" - http://www.webalta.ru/search?q=%F0%E0%EC%E1%EB%E5%F0&city=any

Maxime:
Ага, ежели ещё учесть, что Гугл сразу позиционировался как детище студентов Стэнфорда... :)
A Яндекс чуть ли не в каждом втором интервью задвигает, что большинство его ведущих сотрудников грызло науку чуть ли не на уровне РАН.
И у Гугла и у Яндекса куча научных статей выходило и выходит на тему технологий поиска.

Самое время Вебальте рассказать, кто ж такие их девелоперы :D На каких научных работах это всё основано. Вот раскажут ли - вот в чём вопрос 🙄

Построить поиск среднего качества не так сложно. Будь то Вебальта или другой бренд. Теория информационного поиска существует уже лет 50, и с тех пор придумали только ссылочное ранжирование. И то, и другое вещи открытые, публикаций много, поэтому никаких чудес не будет у кого бы то ни было. Здесь придумывать ничего не нужно, работы опубликованы. Сейчас самое важное - чистота коллекции. Сделать поиск по идеальному набору документов не составлет больших проблем. Но для того, чтобы эта коллекция была хоть сколь-нибудь нормальной, ее надо очистить от: дублей, дорвеев, накруток ссылочного ранжирования и т.п. Кроме того, понять какое именно железо поставить на каждый модуль работы поисковика: поисковые роботы, индексаторы и проч. Сейчас лучший поисковик - тот, у которого выдача "чище". Борьба за релевантность в чистом виде закончилась. Какая с точки зрения пользователя разница, когда по запросу "сеть химчисток" на 1-м месте сеть "Лисичка", на 2-м - "Диана" или наоборот. А вот если там дорвеев полный лес и дублей, и прочих прелестей, тогда это имхо плохая выдача.

Это мне напоминает китайскую атомную подводную лодку с 2-мя тысячами гребцов. Руками удалять неэффектино. Нужно выявлять систему и придумывать методы автоматического подавления поиского спама, дорвеев в частности.

Denis15:
А система то сейчас Путина и вовсе не находит!! :)

На сегодня, 16.08.2006 - находит. Интереснее поискать "путина" с ударением на "и". Выводится тот же набор сайтов. Есть такая замечательная вещь - омонимия, Вебальта на нее наступила по полной программе. Можно еще поискать имя "Света", результаты очень радуют %)

adamrich:
Хотел бы обсудить необходимость/возможность создания файлового поисковика, не FTP а www ссылок. Всем известно что на www лежит очень много контента, может не всегда качественного, но все же, а поисковика по файлам нормального просто нет. Может я не просвящен и он уже давно есть, хотел бы послушать мнения.

Такой поиск есть.

http://go.km.ru/index.asp?sq=%F2%E5%F1%F2&idr=41&ext=0&opt=0&hlp=0&idt=

Индекс не очень большой, но работает. Все виды файлов.

K. Ermakov:
Там циферок, вроде бы, нет :(

Даже после регистрации? Я просто регистрироваться не пробовал.

Вот это не подойдет?

https://adwords.google.com/select/KeywordToolExternal

Всего: 81