Разработка поисковика

Z
На сайте с 03.01.2004
Offline
32
#11
lagif:

Собственно, для поиска документов нейросеть подойдет вряд ли, даже если
ей скармливать уже готовый индекс...

И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.

K
На сайте с 11.11.2005
Offline
12
#12
eshum:
Ну, можно здорово ограничить количество подаваемых слов при обучении сети. Для этого нужно подавать на вход сети не все слова документа, а только "значимые". Значимость определять из частоты встречаемости слова (TF) во всей коллекции документов, т.е. грубо говоря отбрасывать слишком распространенные слова.

Все равно, мне кажется, что слишком многомерный вектор получится, и не понятно, как с координатами, как ориентировать и пр. Для этого, похоже, нужны мощности сильно превосходящие существующие. Хотя исключать этого нельзя. Простой пример из жизни: у меня сейчас в кармане лежит КПК, который превосходит по всем параметрам на порядок тот компьютер, на котором в 1996 году я сделал Rambler 🚬

В любом случае, для построения конкурентного поисковика надо иметь некие ноу-хау, которые можно реально дать пощупать пользователю, но скромно умолчать о том, как в деталях это работает

Если вы будете следовать инструкциям, то каждое блюдо будет получаться у вас таким же, как и у нас, даже если раньше вы никогда не занимались приготовлением пищи. Поваренная книга Мак-Колла и эпиграф Д. Кнута (http://www.turtle.ru/)
pelvis
На сайте с 01.09.2005
Offline
345
#13

upindex,

желание сделать

это очень похвально. Только как быть с остальными? они же считают себя лучшими. Насколько Ваше мнение объективно?

например, мы наконец у себя сформулировали тесты по определению Page IQ , помимо весов страниц будем использовать и это (конец ноября).

Только я не считаю, что у нас есть шанс стать лучшими - скорее мы станем просто более адекватно отвечать запросам в усеченном рекламном поисковике.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
lagif
На сайте с 15.12.2004
Offline
30
#14

Zute, ранжирование и поиск - две принципиально разные задачи.

Это тоже пройдет...
Z
На сайте с 03.01.2004
Offline
32
#15
lagif:
Zute, ранжирование и поиск - две принципиально разные задачи.

Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)

lagif
На сайте с 15.12.2004
Offline
30
#16

Zute,

А кто сказал, что не влияет?! Конечно, влияет!!! Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

M
На сайте с 12.05.2005
Offline
133
#17
lagif:
И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

Кто начал разговор при использовании нейросетей для поиска? Ерунда какая-то, причем здесь нейронка, что и как она должна искать? Может речь идет о бинарных деревьях, описывающих инвертированный индекс? Нейронка может применяться на этапе именно определения релевантности, но никак не на этапе создания набора страниц, которые нужно разпределить по релевантности.

K
На сайте с 11.11.2005
Offline
12
#18
lagif:
Zute,
Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в классическом понимании. Имеем граф на N млрд. узлов и, кто его знает, сколько ребер. При этом он обязан быть связаным, чего в жизни нет. Стало быть, надо хотябы выделить сильно связанные компоненты, определить их соотношения. А далее (ой мама, не горюй) глубокая рекурсия по матрице NxN. Это не единственная компонента ранжирования и кто знает, какие еще методы предложит пытливый ум

Что касается нейронных сетей, то мой отец очень долго и серьезно этим занимался в академгородке Пущино, по его мнению (при встрече уточню), на практике их преспективно применять в распознавании образов (в нашем случае, по-моему, это авто-классификация). Кстати, проработав 20 лет над моделированием мозга, отец "плюнул" и ушел в монахи. Возможно это не имеет отношения к работе, однако - факт 🚬

K
На сайте с 27.11.2000
Offline
80
#19
Kryukov:
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в
...

Что касается нейронных сетей...

Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.

Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.

Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.

Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.

И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.

Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.

Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)

С уважением, Андрей Коваленко aka Keva
K
На сайте с 11.11.2005
Offline
12
#20
Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи

Андрюха, тема действительно уехала в ОФФ. А если вернуться к изначальному посту: может автор и вправду хочет создать _ВСЕ_ условия для разработки :) , а может не представляет, что это за условия, а может провокация на флейм.

Пойдем разрабатывать, а?

Прошу прощения за полуОФФ

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий