Создание поисковика

1 234
ГЖ
На сайте с 03.11.2009
Offline
1
#21

здесь я увидел одну ключевую особенность: пользователь может описать то, что он ищет - то есть нужно обучить не поисковую систему работать, а пользователя работать с ПС!

то есть вы берете велосипед и что бы показать его как собственную,уникальную систему, меняете форму колеса на квадратную и предлагаете крутить педали не ногами а руками( ну, чтобы было оригинально), то есть вы пытаетесь усовершенствовать алгоритм или нет - видоизменить рабочий алгоритм, то есть мыслите по шаблону( кот. кстати - вам и не покажут!) а нужно находить новый алгоритм и не использовать всякие красивости типа: нейронные сети, ИИ и т.д. и т.п.

WEB_Spb
На сайте с 21.06.2007
Offline
35
#22
dr_dax:
В моем понятии медленный, это 1-3 секунды

Это время индексации документа или формирования серпа?

harutx
На сайте с 13.08.2007
Offline
128
#23
clickinghott:
на каких яз.програм-ия лучше это делать?

Perl, Python, можно и на PHP

clickinghott:
Примерно во сколько обойдется создание поисковика

Ищущего по 1000 сайтам - недорого.

clickinghott:
сложно ли сделать?

для нормального программиста - нет.

clickinghott:
кто уже имел опыт?

опыт есть, в 2-х проектах. В одном сами написали, а во 2-ом использовали готовые бесплатные решения (с открытым исходным кодом).

FOXI.BY:
http://www.sphider-plus.eu/ отлично подойдет для индексирования 1000 сайтов...

Полностью согласен! Sphider - хороший скрипт, работает быстро, открытый исходной код. 1000 сайтов потянет без проблем. тоже советую! Для Вас - думаю это то что надо.

di_max
На сайте с 27.12.2006
Offline
262
#24
dr_dax:
По смыслу.

О как!

А как с морфологией русского языка?

В полно объеме реализована или как в фьху.. ой фултекстсерчь а'ля мускул?

То есть тот же лайке...😂

// Все наши проблемы от нашего не знания...
FS
На сайте с 20.04.2008
Offline
18
#25
dr_dax:
В моем понятии медленный, это 1-3 секунды.

Эта цифра ни о чем не говорит, пока не известны размер базы и железо. ;)

DD
На сайте с 07.04.2009
Offline
13
#26

Откровенно неохото и лениво кому-то что-то доказывать, т.к. всеравно обговняют Постараюсь ответить кратко. Система так устроена, что если вы в запросе напишите например "технология изготовления кремниевых пластин" или "тихнаологея эзгатавления плостинок кремнвых" или "технаоллогея зготовления плостин из кремния" то с вероятностью 90% вы получите один и тотже документ на верху выдачи и 99% этот документ будет в первой десятке.

При этом нет никаких словарей вообще. Вся программа чуть более 200 килобайт. Все остальное интерфейсные библиотеки. Но тем не менее программа в соответстви с заданным запросом может предложить вам исправить все синтаксические ошибки. Если бы нам удалось реализовать технологию на специально разработанном для этого процессоре, то поиск среди любого объема документов можно было бы выполнять за доли секунды с числом шагов не более 200. Программе все равно какой будет язык, какая кодировка. Я неплохо знаю как работают классические поисковики. и повторюсь у нас совершенно иная технология реализации. Больше всего это похоже на нейронную сеть, но это не она в классическом понимании. По скрости. На интел Атом 1,6 ГГц поиск среди 5000 тысяч документов запросом из 5-10 слов выполняется около 5 секунд. При этом наблюдается следующее - чем больше количество проиндексированных документов, тем лучше качество поиска. Сама индексация очень быстрая. Т.к. мы не храним ни слов ни предложений в индексе (вообще понятие индекса тут мало применимо) 5000 документов по 100 кб индексируются где-то 30-60 секунд. Я привожу примерное время. т.к. сейчас мы приделываем эту технологию к распознаванию речи и музыки (возможно напеть мелодию и прога из набора мелодий проиграет ту, которую напевал). Тесты на скорость с текстом мы не проводим уже давно, т.к. все что хотели узнать и попробывать уже узнали.

Вобщем если кому то хочется пообсирать, то пожалуйста, я уже давно не обращаю внимания на это, если кто-то действительно интересуется, я готов к сотрудничеству. Есть что показать и рассказать.

[Удален]
#27

сам пользуюсь Sphider, отличный скрипт. и он больше 1000 сайтов потянет, самое главное мощности серверные обеспечить.

а тут - http://www.sphider.eu/forum или тут - http://www.sphider.ru/ можно найти для него моды и дополнения.

SergejDergatsjev
На сайте с 22.08.2009
Offline
19
#28
clickinghott:
Здравствуйте!

Примерно во сколько обойдется создание поисковика...уточню* ищущего примерно по 1000 сайтам(по одной тематике мне нужно)сколько всего это будет стоить и сложно ли сделать?на каких яз.програм-ия лучше это делать?кто уже имел опыт?
отпишитесь плиз
заранее спс

Создание поисковика занимает обычно 2-4 недели.

Если всё стандартное (парсер, модель, сортер) то можно и меньше.

Цена зависит от многих факторов, как уже тут упоминалось можно найти дешевое решение но оно будет иметь недостатки и ограничения можно найти и дорогое решение которое будет более лучше продумано и сделано по размеру.

dr_dax:
На интел Атом 1,6 ГГц поиск среди 5000 тысяч документов запросом из 5-10 слов выполняется около 5 секунд.

Очень медленно... Если прибавить соединение то пользователь не дождётся результатов. Я использую технологии которые позволяют искать в 10 Гигах текста за 0,1

eEcho build a database-driven web sites. Let us build your web site! (http://www.eecho.info)
di_max
На сайте с 27.12.2006
Offline
262
#29
SergejDergatsjev:
Я использую технологии которые позволяют искать в 10 Гигах текста за 0,1

Медленно. 10 запросов в секунду и все встало?

Боле-мене приемлемое - 0,015-0,02 сек на запрос, вне зависимости от кол-ва документов.

BN
На сайте с 18.07.2008
Offline
13
#30
dr_dax:
Откровенно неохото и лениво кому-то что-то доказывать, т.к. всеравно обговняют Постараюсь ответить кратко...

Я неплохо знаю как работают классические поисковики. и повторюсь у нас совершенно иная технология реализации. Больше всего это похоже на нейронную сеть, но это не она в классическом понимании...

Вобщем если кому то хочется пообсирать, то пожалуйста, я уже давно не обращаю внимания на это, если кто-то действительно интересуется, я готов к сотрудничеству. Есть что показать и рассказать.

Если все так уникально, есть уверенность и работающий прототип, может стоит попробовать поискать нужных людей!? "Неохота и лень" вам не помогут.

А для того чтобы не "гадили в душу", не будьте голословным - покажите. Все оценят.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий