Устройство поисковой системы

12
ГИ
На сайте с 24.04.2006
Offline
0
1852

Здравствуйте.

Я учусь в институте и мне дали задание написать техническое задание для написания поисковой системы, которая будет искать картинки. Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.

Для начала мне нужно представить как работает самая простенькая поисковая система.

Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.

Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?

Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...

Посоветуйте, пожалуйста, книжку, в которой можно обо всем этом почитать. Можно, в принципе, на английском языке, это неважно.

webcat
На сайте с 19.10.2005
Offline
137
#1
ГаляИ
Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.

ГаляИ ,судя по Вашему посту мне что-то с трудом вериться, что вам вот такое техническое задание дали

Судя по Вашим вопросам даже трудно Вам посоветовать с чего-го начать :)

но вы можетн рискнуть...

http://en.wikipedia.org/wiki/Information_retrieval

http://www.dcs.gla.ac.uk/Keith/Preface.html

J
На сайте с 10.03.2006
Offline
34
Joe
#2

В такию систему ещё неплохо воткнуть распознование имиджей хотя-бы для предотвращения дупликатов :-)

pauk
На сайте с 26.01.2005
Offline
543
#3

Очень похоже на очередной супер-пупер-гипер-проект :)

Ладно, картинки искать по тэгам ALT и TITLE. Можно по последнему ПЕРЕД и первому ПОСЛЕ тэга IMG предложению.

Ну, а дальше всё стандартно, робот, ползающий по сайтам, чтение и обработка данных.

Hi!
Vetra
На сайте с 07.04.2005
Offline
200
#4

ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.

Объясняю принцип: в базу данных заноситься картинка и ключевые слова к ней. Потом поиск идет по ключевым словам. В принципе если дописать, что она должна иметь приятный интерфейс, форму добавления/удаления картинки, изменения ключевых слов, пользовательские и админские права - то вот готовое ТЗ. Оформить в виде маркированного списка и готово.

pro-maker
На сайте с 08.12.2003
Offline
281
#5
ГаляИ:
Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.
Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?
Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...

Нет слов, бесконечная рекурсия по посту топикстартера.

Тянет на шедевр. :)

ГаляИ, если только это не стеб...

В каждом поисковике реализован поиск по картинкам. Но по начальному посту, Вам справится с этой задачей будет непросто. Поэтому будет неплохо, если поищите уже готовый аналогичный реферат, купите книжку по html и прочим основам интернета, а также почитаете эти статьи:

http://company.yandex.ru/articles/

grimly
На сайте с 22.06.2005
Offline
80
#6

На http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html - на русском, нормальный такой учебничек.

pauk
На сайте с 26.01.2005
Offline
543
#7
Vetra:
ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.

Это не поисковик, это коллекция фото, графики, рисунков. Делается элементарно.

Ссылка на файл - заголовок - описание

По поисковому запросу ищется по заголовкам, выводятся файлы, далее по описанию, выводятся файлы. Ну особо продвинутые могут грамматику использовать и расширенный язык запросов.

А поисковик - это робот с правильным хождением по ссылкам надо писать, что сложнее:)

Vetra
На сайте с 07.04.2005
Offline
200
#8

pauk, просто я думаю, что человеку, не знающему как устроен интернет вряд ли бы дали задание написать ТЗ для поисковой системы :) У меня в ВУЗе (гуманитарном) тоже была информатика и дальше, чем "а сегодня мы будем учиться посылать по почте вложенный файл" занятия интернетом не заходили..

Ну, а если барышня с математичского факультета, ей было проще спросить у одногруппников или еще кого.

PS просто очень часто люди путаются в понятиях и это лучше пресекать на корню :)

ГИ
На сайте с 24.04.2006
Offline
0
#9

Всем спасибо большое.

Как устроен сайт я поняла, в html разберучь быстро.

Теперь у меня появился такой вопрос - как робот может ходить по интернету? В принципе он может зайти на один известный сайт и ходить по ссылкам , которые в нем содержатся. Но это может привести к зацикливанию, причем если изначальный сайт содержит мало ссылок, то множество найденных документов будет мало. Есть ли какие-нибудь открытые хранилища сайтов? (Я понимаю, что, в принципе, можно создать свое.)

Второй вопрос: на всех ли сайтах множество картинок содержится в отдельной папке? Это общее правило или просто рекомендация?

Третий вопрос: существует ли какая-то регистрация сайтов, которые ссылаются на данный сайт? То есть, когда какой-то сайт ссылается на расматриваемый, проставляется ли какая-нибудь метка на рассматриваемом сайте?

Заранее спасибо.

S
На сайте с 25.04.2006
Offline
0
#10

Галя, а Вы в Яндекс попроситесь в качестве стажера. А потом нам расскажете :).

PS Вообще похоже на стеб :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий