Устройство поисковой системы

0

ГаляИ

24 апреля 2006, 19:56

1905

Здравствуйте.

Я учусь в институте и мне дали задание написать техническое задание для написания поисковой системы, которая будет искать картинки. Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.

Для начала мне нужно представить как работает самая простенькая поисковая система.

Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.

Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?

Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...

Посоветуйте, пожалуйста, книжку, в которой можно обо всем этом почитать. Можно, в принципе, на английском языке, это неважно.

137

webcat

24 апреля 2006, 20:24

#1

ГаляИ
Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.

ГаляИ ,судя по Вашему посту мне что-то с трудом вериться, что вам вот такое техническое задание дали

Судя по Вашим вопросам даже трудно Вам посоветовать с чего-го начать :)

но вы можетн рискнуть...

http://en.wikipedia.org/wiki/Information_retrieval

http://www.dcs.gla.ac.uk/Keith/Preface.html

J

34

Joe

24 апреля 2006, 20:40

#2

В такию систему ещё неплохо воткнуть распознование имиджей хотя-бы для предотвращения дупликатов :-)

543

pauk

24 апреля 2006, 21:37

#3

Очень похоже на очередной супер-пупер-гипер-проект :)

Ладно, картинки искать по тэгам ALT и TITLE. Можно по последнему ПЕРЕД и первому ПОСЛЕ тэга IMG предложению.

Ну, а дальше всё стандартно, робот, ползающий по сайтам, чтение и обработка данных.

Hi!

Платон Щукин про индексацию Google: атрибут alt очень Яндекс кобласит

200

Vetra

25 апреля 2006, 06:48

#4

ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.

Объясняю принцип: в базу данных заноситься картинка и ключевые слова к ней. Потом поиск идет по ключевым словам. В принципе если дописать, что она должна иметь приятный интерфейс, форму добавления/удаления картинки, изменения ключевых слов, пользовательские и админские права - то вот готовое ТЗ. Оформить в виде маркированного списка и готово.

281

pro-maker

25 апреля 2006, 07:14

#5

ГаляИ:
Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.
Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?
Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...

Нет слов, бесконечная рекурсия по посту топикстартера.

Тянет на шедевр. :)

ГаляИ, если только это не стеб...

В каждом поисковике реализован поиск по картинкам. Но по начальному посту, Вам справится с этой задачей будет непросто. Поэтому будет неплохо, если поищите уже готовый аналогичный реферат, купите книжку по html и прочим основам интернета, а также почитаете эти статьи:

http://company.yandex.ru/articles/

Google: мы используем много Новый поисковик от OpeAI Google Updates - апдейты

80

grimly

25 апреля 2006, 07:51

#6

На http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html - на русском, нормальный такой учебничек.

543

pauk

25 апреля 2006, 08:05

#7

Vetra:
ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.

Это не поисковик, это коллекция фото, графики, рисунков. Делается элементарно.

Ссылка на файл - заголовок - описание

По поисковому запросу ищется по заголовкам, выводятся файлы, далее по описанию, выводятся файлы. Ну особо продвинутые могут грамматику использовать и расширенный язык запросов.

А поисковик - это робот с правильным хождением по ссылкам надо писать, что сложнее:)

Размещение статей задним числом Google обновил Редактор AdWords Google добавил новые документы

200

Vetra

25 апреля 2006, 08:25

#8

pauk, просто я думаю, что человеку, не знающему как устроен интернет вряд ли бы дали задание написать ТЗ для поисковой системы :) У меня в ВУЗе (гуманитарном) тоже была информатика и дальше, чем "а сегодня мы будем учиться посылать по почте вложенный файл" занятия интернетом не заходили..

Ну, а если барышня с математичского факультета, ей было проще спросить у одногруппников или еще кого.

PS просто очень часто люди путаются в понятиях и это лучше пресекать на корню :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

ГИ

0

ГаляИ

25 апреля 2006, 12:54

#9

Всем спасибо большое.

Как устроен сайт я поняла, в html разберучь быстро.

Теперь у меня появился такой вопрос - как робот может ходить по интернету? В принципе он может зайти на один известный сайт и ходить по ссылкам , которые в нем содержатся. Но это может привести к зацикливанию, причем если изначальный сайт содержит мало ссылок, то множество найденных документов будет мало. Есть ли какие-нибудь открытые хранилища сайтов? (Я понимаю, что, в принципе, можно создать свое.)

Второй вопрос: на всех ли сайтах множество картинок содержится в отдельной папке? Это общее правило или просто рекомендация?

Третий вопрос: существует ли какая-то регистрация сайтов, которые ссылаются на данный сайт? То есть, когда какой-то сайт ссылается на расматриваемый, проставляется ли какая-нибудь метка на рассматриваемом сайте?

Заранее спасибо.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

0

serbsol

25 апреля 2006, 12:58

#10

Галя, а Вы в Яндекс попроситесь в качестве стажера. А потом нам расскажете :).

PS Вообще похоже на стеб :)

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Переиграть и победить: как анализировать конкурентов для продвижения сайта