Разработка поисковика

U
На сайте с 03.11.2005
Offline
35
10376

Есть огромное желание сделать лучший поисковик в рунете. Для осуществления этой идеи создам все условия. Пишите.

Таггу x_x
На сайте с 31.10.2005
Offline
445
#1

Дык это не инерестно. Давайте лучше худший :) Чтоб выдавал одни доры и помойки. Но - только их, и ни капли полезного...

Это я так, не удержался, завидую широте замысла...:)

☠️☠️☠️
lagif
На сайте с 15.12.2004
Offline
30
#2

upindex,

Смело!

А у вас найдется на эту идею десятка три серверов и куда больше штук зеленых?

Это тоже пройдет...
[Удален]
#3

lagif, а если у меня найдется? есть предложения?

lagif
На сайте с 15.12.2004
Offline
30
#4

Scaramush,

Надо потратить пару лет, сколотить смелую и - что главное! - умелую команду. В хорошей команде я бы поработать не отказалась.

Удаленно. :) На полставки... :) А сейчас - только по ночам :D И вообще - мечты все это. Чтобы создать по-настоящему мудрый поисковик, нужно придумывать по-настоящему революционные технологии. И, наверное, это будет стоить дороже (даже во времени) чем сама реализация идеи.

Недавно мне пропесочивали голову насчет искусственных интеллектов. Не обнадеживающе, но некоторые вещи можно попробовать и в поиске. Если долго мучиться... (это, конечно, ответ универсальный)

VT
На сайте с 27.01.2001
Offline
130
#5
Чтобы создать по-настоящему мудрый поисковик, нужно придумывать по-настоящему революционные технологии.

Вы так говорите, как-будто Яндекс и Гугль безгрешны, и ничего другого уже не нужно. На самом деле в информационном поиске есть великое множество нерешенных проблем, так что все только начинается.

lagif
На сайте с 15.12.2004
Offline
30
#6

Vyacheslav Tikhonov,

Нет же, я, конечно, понимаю, что все развиваются! Но в последнее время мне кажется, что методы поиска должны меняться кардинально - чтоб как искусственный разум... это я, наверное, фантастики начиталась - она интереснее всякой поисковой литературы...

Сама я, разумеется, ничего революционного не предлагаю - не гений мысли, отнюдь.

Думаю, однако, поисковые машины должны меняться не только программно, но и аппаратно быть заточены под поиск и индексацию (я не имею в виду умощнение серверов или двухъядерные процессоры поменять на четырех... :D, а нечто новое, вроде как сигнальные процессоры могут быть настроены на несколько специализированных задач)...

E
На сайте с 12.01.2004
Offline
17
#7
lagif:
Scaramush,
Недавно мне пропесочивали голову насчет искусственных интеллектов. Не обнадеживающе, но некоторые вещи можно попробовать и в поиске...

...например построить огромнейшую нейронную сеть. Причем обучить ее так, чтобы подавая запрос на вход, на выходе получать готовый список сайтов :) А вообще, нейронные сети наверное можно использовать для автоматической классификации документов по тематике.

M
На сайте с 12.05.2005
Offline
133
#8
eshum:
А вообще, нейронные сети наверное можно использовать для автоматической классификации документов по тематике.

Думаю что нельзя.

Количество нейронов выходного слоя будет ограничено и зависить от кол-ва категорий.

А что будет на входе? Блок, абзац, предложение? В каком виде всё это подается?

Вам нужно обрабатывать страницу полностью. Т.е. проэмулировать процесс чтения документа, слово за словом, предложение за предложением. Количество скрытых слоёв должно быть очень велико, (если у Вас более 1 скрытого слоя, это уже головняк при определении весов, читай обучении, из опыта :) ), для запоминания/забывания критичных мест, обратные связи должны быть все просчитаны.

Полнофункциональную нейронку для категорирования программно реализовать практически невозможно, нехватит мощей. Моё мнение.

lagif
На сайте с 15.12.2004
Offline
30
#9

medaest,

Нейронные сети - еще не искусственный интеллект...

Собственно, для поиска документов нейросеть подойдет вряд ли, даже если ей скармливать уже готовый индекс...

E
На сайте с 12.01.2004
Offline
17
#10
medaest:

Вам нужно обрабатывать страницу полностью. Т.е. проэмулировать процесс чтения документа, слово за словом, предложение за предложением. Количество скрытых слоёв должно быть очень велико, (если у Вас более 1 скрытого слоя, это уже головняк при определении весов, читай обучении, из опыта :) ), для запоминания/забывания критичных мест, обратные связи должны быть все просчитаны.

Ну, можно здорово ограничить количество подаваемых слов при обучении сети. Для этого нужно подавать на вход сети не все слова документа, а только "значимые". Значимость определять из частоты встречаемости слова (TF) во всей коллекции документов, т.е. грубо говоря отбрасывать слишком распространенные слова.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий