Создайте конкурентный поисковик, который был бы лучше всех существующих - Поисковые технологии

Разработка поисковика

upindex · 2005-11-03T18:22:49.0000000Z

Есть огромное желание сделать лучший поисковик в рунете . Для осуществления этой идеи создам все условия. Пишите.

32

Zute

10 ноября 2005, 19:24

#11

lagif:

Собственно, для поиска документов нейросеть подойдет вряд ли, даже если
ей скармливать уже готовый индекс...

И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.

K

12

Kryukov

11 ноября 2005, 11:25

#12

eshum:
Ну, можно здорово ограничить количество подаваемых слов при обучении сети. Для этого нужно подавать на вход сети не все слова документа, а только "значимые". Значимость определять из частоты встречаемости слова (TF) во всей коллекции документов, т.е. грубо говоря отбрасывать слишком распространенные слова.

Все равно, мне кажется, что слишком многомерный вектор получится, и не понятно, как с координатами, как ориентировать и пр. Для этого, похоже, нужны мощности сильно превосходящие существующие. Хотя исключать этого нельзя. Простой пример из жизни: у меня сейчас в кармане лежит КПК, который превосходит по всем параметрам на порядок тот компьютер, на котором в 1996 году я сделал Rambler 🚬

В любом случае, для построения конкурентного поисковика надо иметь некие ноу-хау, которые можно реально дать пощупать пользователю, но скромно умолчать о том, как в деталях это работает

Если вы будете следовать инструкциям, то каждое блюдо будет получаться у вас таким же, как и у нас, даже если раньше вы никогда не занимались приготовлением пищи. Поваренная книга Мак-Колла и эпиграф Д. Кнута (http://www.turtle.ru/)

345

pelvis

11 ноября 2005, 11:32

#13

upindex,

желание сделать

это очень похвально. Только как быть с остальными? они же считают себя лучшими. Насколько Ваше мнение объективно?

например, мы наконец у себя сформулировали тесты по определению Page IQ , помимо весов страниц будем использовать и это (конец ноября).

Только я не считаю, что у нас есть шанс стать лучшими - скорее мы станем просто более адекватно отвечать запросам в усеченном рекламном поисковике.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

11 ноября 2005, 11:54

#14

Zute, ранжирование и поиск - две принципиально разные задачи.

Это тоже пройдет...

Z

32

Zute

11 ноября 2005, 12:51

#15

lagif:
Zute, ранжирование и поиск - две принципиально разные задачи.

Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)

30

lagif

11 ноября 2005, 12:59

#16

Zute,

А кто сказал, что не влияет?! Конечно, влияет!!! Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

133

medaest

12 ноября 2005, 09:00

#17

lagif:
И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

Кто начал разговор при использовании нейросетей для поиска? Ерунда какая-то, причем здесь нейронка, что и как она должна искать? Может речь идет о бинарных деревьях, описывающих инвертированный индекс? Нейронка может применяться на этапе именно определения релевантности, но никак не на этапе создания набора страниц, которые нужно разпределить по релевантности.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

12

Kryukov

12 ноября 2005, 09:12

#18

lagif:
Zute,
Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.

Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в классическом понимании. Имеем граф на N млрд. узлов и, кто его знает, сколько ребер. При этом он обязан быть связаным, чего в жизни нет. Стало быть, надо хотябы выделить сильно связанные компоненты, определить их соотношения. А далее (ой мама, не горюй) глубокая рекурсия по матрице NxN. Это не единственная компонента ранжирования и кто знает, какие еще методы предложит пытливый ум

Что касается нейронных сетей, то мой отец очень долго и серьезно этим занимался в академгородке Пущино, по его мнению (при встрече уточню), на практике их преспективно применять в распознавании образов (в нашем случае, по-моему, это авто-классификация). Кстати, проработав 20 лет над моделированием мозга, отец "плюнул" и ушел в монахи. Возможно это не имеет отношения к работе, однако - факт 🚬

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

13 ноября 2005, 15:47

#19

Kryukov:
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в
...

Что касается нейронных сетей...

Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.

Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.

Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.

Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.

И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.

Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.

Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)

С уважением, Андрей Коваленко aka Keva

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

12

Kryukov

13 ноября 2005, 16:40

#20

Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи

Андрюха, тема действительно уехала в ОФФ. А если вернуться к изначальному посту: может автор и вправду хочет создать _ВСЕ_ условия для разработки :) , а может не представляет, что это за условия, а может провокация на флейм.

Пойдем разрабатывать, а?

Прошу прощения за полуОФФ

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Зачем быть уникальным в мире, где все можно скопировать

Разработка поисковика