Поисковая машина нового поколения

B
На сайте с 02.09.2002
Offline
42
bvd
#41
Как писал Pavelkq
Есть еще одна интересная задача - словосочетания.
...
Хочется сделать возможным поиск по словосочетаниям. Именно, грамматически правильными, а не просто рядом стоящие слова.

золотые слова, еще бы кто-нибудь мог четко

отделить словосочетания и словосочетания

(в общем, что собственно понимается под словосочетаниями:

именные, глагольные, имена собственные, идиомы и т.п.)?

P
На сайте с 07.01.2004
Offline
3
#42

Open Source - это мечта. Вот думаю, что если напишу когда-нибудь что-то стоящее, обязательно поделюсь со всеми желающими. А сейчас приходится по обрывкам фраз Гуру только догадываться о технологиях, пытаясь повторить шаги уже многих. Никто же не отдаст свой хлеб на халяву. Спросил, к примеру, где взять словарь парадигм, мне сразу посоветовали купить.

Вот и топчемся на месте по ясным причинам.

B
На сайте с 02.09.2002
Offline
42
bvd
#43
Как писал Pavelkq
Open Source - это мечта. Вот думаю, что если напишу когда-нибудь что-то стоящее, обязательно поделюсь со всеми желающими. А сейчас приходится по обрывкам фраз Гуру только догадываться о технологиях, пытаясь повторить шаги уже многих. Никто же не отдаст свой хлеб на халяву. Спросил, к примеру, где взять словарь парадигм, мне сразу посоветовали купить.

Программы, ресурсы, которые Вы хотите, имеют очень высокую себестоимость (в частности высокую долю ручного труда)

и представляют не до конца еще решенную задачу.

Поэтому деньги здесь, в основном, просят не для супер большой наживы,

но для развития.

Как писал Pavelkq
Вот и топчемся на месте по ясным причинам.

Если бы было (из области пока нереализуемого) что-то типа

реально работающего патентного права на программы и лингвистические

ресурсы - вот тогда бы не топтались.

А то сейчас можно взять ЧУЖОЙ продукт и не добавить, нет,

ВЫКИНУТЬ половину - и получится НОВЫЙ продукт,

который можно продавать (и продают ведь).

Только такому "улучшателю" он достался за 5 копеек,

а разработчик вложил кучу средств.

И ясно кто имеет в этом случае конкурентные преимущества.

Поэтому-то все прячут, шифруют, и если открывают что-то,

то очень осторожно.

K
На сайте с 22.04.2003
Offline
31
Ken
#44

Очень многообещающий топик - но, на мой взгляд, не высказано ни одной ЦЕЛИ, которую необходимо достичь в системе НОВОГО ПОКОЛЕНИЯ: только желание достичь уровня существующих поисковиков.

Может все-таки open source - должен иметь место?

B
На сайте с 02.09.2002
Offline
42
bvd
#45
Как писал Ken
Очень многообещающий топик - но, на мой взгляд, не высказано ни одной ЦЕЛИ, которую необходимо достичь в системе НОВОГО ПОКОЛЕНИЯ: только желание достичь уровня существующих поисковиков.
Может все-таки open source - должен иметь место?

Мне кажется, Вы невнимательно читали топик.

Те пожелания, которые были высказаны в начале обсуждения,

покрываются внедрением SemanticWeb

(попытка перенести тяжесть разбора содержимого страницы

на плечи самих владельцев страниц).

Однако там пока очень много проблем - и основные игроки пока

не готовы в это вкладываться, так как риски подталкивания

глобального перехода на новый ПРИНЦИП существования в сети

не очевидны.

И причем тут open source?

open source - метод, а пока неясен путь к нечеткой цели.

Bye

VT
На сайте с 27.01.2001
Offline
130
#46
Очень многообещающий топик - но, на мой взгляд, не высказано ни одной ЦЕЛИ, которую необходимо достичь в системе НОВОГО ПОКОЛЕНИЯ

Хорошо, представим себе гипотетическую поисковую машину, релевантность которой определяется не расстановкой ключевых слов в текстах или разностью позиций этих слов, а объектами, содержащимися в этих текстах. Например, понятие 'поисковая система' может быть названо как угодно, к примеру, поисковая машина, искалка или поисковик, однако смысл его от этого ведь нисколько не изменится.

Подобная интеллектуальная поисковая система будет работать только с понятиями, непрерывно соединяя лексические цепочки, рассчитывая расстояния между различными объектами, классифицируя новые понятия, собирая кластеры и т.д.

Подобную систему невозможно будет проспамить или обмануть, так как она работает на семантическом, более высоком уровне абстракции и легко распознает все исскуственные попытки продвинуть вверх документы "не по теме".

Теперь вопрос. Как сделать подобную машину в условиях open-source при отсутствии базы (словарей, наработок и т.д.) и, что самое главное, не опираясь на алгоритмы современных полнотекстовых поисковых систем?

Базовые алгоритмы и теория поиска ведь уже не изменится, не так ли?

Короче говоря, предложить что-то действительно новое в области информационного поиска может только человек, который спроектировал и уже успешно запустил полнотекстовую поисковую машину и обладающий соответствующим опытом. Новички-энтузиасты могут только повторить достижения уже существующих систем.

P
На сайте с 07.01.2004
Offline
3
#47

Да, open-source не решает проблему технологии, но куда проще будет жить, появись в сети несколько готовых бесплатных программ со словарями и исходным кодом. Другие, кто неважно разбирается или не успевает разобраться с, например, морфологией, воспользуются этими наработками, и создадут что-то более существенное. Некоторые с радостью будут пополнять словари и оттачивать код. И кто же купит у переписчиков программы, когда они и так бесплатно лежат в Сети. А что касается продаж измененных тем... Линукс тоже продается...

Для начала Яндекс и Рэмблер, хотя бы, обменялись словарями и технологиями (или уже?).

Человечество потому и прогресировало, что обменивалось информацией, в часности, технологиями. Старые поколения обучают молодое, догадавшиеся учат не догадавшихся:-)

В конце концов, все мысли, которые приходят в головы современных людей, уже существовали и существуют в пространстве. Нужно просто настроиться на нужную волну (сейчас это называется подумать хорошо). Присвоение таких мыслей (открытий) сродни присвоению коммунистической собственности:-)))

Делитесь, народ! Хочу все знать! Не деньги цель, а знание!

Z
На сайте с 03.01.2004
Offline
32
#48
Как писал Pavelkq
Да, open-source не решает проблему технологии, но куда проще будет жить, появись в сети несколько готовых бесплатных программ со словарями и исходным кодом.

Уже давно есть что посмотреть:

http://www.searchtools.com/tools/tools-opensource.html

A
На сайте с 23.11.2000
Offline
166
#49
Как писал Vyacheslav Tikhonov
Например, понятие 'поисковая система' может быть названо как угодно, к примеру, поисковая машина, искалка или поисковик, однако смысл его от этого ведь нисколько не изменится.

Тут тоже без уточнений не обойтись. :) Если смотреть со стороны "неискушенного" Интернет-пользователя, то, когда он и_щ_е_т, сервис, помогающий ему в поиске, вполне можно назвать "поисковая система". "Искушенный" уже будет различать поиск путем хождения по рубрикатору каталога и привычный для "поисковиков" диалоговый стиль работы, но вряд ли различит каталожные ссылки в серпах Яндекса от "индексных", а каталог Refer вполне может спутать с "искалкой". И только разработчик под поисковой системой будет понимать машину, которая а_в_т_о_м_а_т_и_ч_е_с_к_и собирает информацию в Интернете, т.е. это уже не пользователь ищет, а ищет прежде всего сама поисковая система.

От решения вопроса, к кому применять сказуемое "ищет" - к человеку или к компьютеру, очень сильно зависит взгляд на понятие "поисковая система", его смысл. :)

K
На сайте с 22.04.2003
Offline
31
Ken
#50

Вспоминается книжка Попова "Общение с ЭВМ на естественом языке" 80 г.

А существуют ли какие-нибудь работающие модели семантического поиска?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий