- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте.
Я учусь в институте и мне дали задание написать техническое задание для написания поисковой системы, которая будет искать картинки. Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.
Для начала мне нужно представить как работает самая простенькая поисковая система.
Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.
Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?
Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...
Посоветуйте, пожалуйста, книжку, в которой можно обо всем этом почитать. Можно, в принципе, на английском языке, это неважно.
Я про это пока ничего не знаю, но очень хотела бы узнать как устроена поисковая система.
ГаляИ ,судя по Вашему посту мне что-то с трудом вериться, что вам вот такое техническое задание дали
Судя по Вашим вопросам даже трудно Вам посоветовать с чего-го начать :)
но вы можетн рискнуть...
http://en.wikipedia.org/wiki/Information_retrieval
http://www.dcs.gla.ac.uk/Keith/Preface.html
В такию систему ещё неплохо воткнуть распознование имиджей хотя-бы для предотвращения дупликатов :-)
Очень похоже на очередной супер-пупер-гипер-проект :)
Ладно, картинки искать по тэгам ALT и TITLE. Можно по последнему ПЕРЕД и первому ПОСЛЕ тэга IMG предложению.
Ну, а дальше всё стандартно, робот, ползающий по сайтам, чтение и обработка данных.
ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.
Объясняю принцип: в базу данных заноситься картинка и ключевые слова к ней. Потом поиск идет по ключевым словам. В принципе если дописать, что она должна иметь приятный интерфейс, форму добавления/удаления картинки, изменения ключевых слов, пользовательские и админские права - то вот готовое ТЗ. Оформить в виде маркированного списка и готово.
Начнем с того, что я не знаю как устроен сайт и как какая-то машина может перебирать страницы.
Не могли бы вы мне подсказать где (желательно в интернете) можно почитать про то, как устроены сайты и как можно перебирать адреса?
Я слышала (может быть я неправильно поняла), что сайты представляют собой набор файлов (или html-ных страниц). Как можно добраться до этого списка (или дерева) и как двигаться по нему? Потом, в каком виде хранятся ссылки на этих документах? И как вообще устроен интернет? Как переходить от машины к машине? Как понять, что какой-то ip-адрес занят какой-то машиной, а какой нет? И все в таком духе...
Нет слов, бесконечная рекурсия по посту топикстартера.
Тянет на шедевр. :)
ГаляИ, если только это не стеб...
В каждом поисковике реализован поиск по картинкам. Но по начальному посту, Вам справится с этой задачей будет непросто. Поэтому будет неплохо, если поищите уже готовый аналогичный реферат, купите книжку по html и прочим основам интернета, а также почитаете эти статьи:
http://company.yandex.ru/articles/
На http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html - на русском, нормальный такой учебничек.
ГаляИ, ну, тут "поисковая система" довольно громкое слово.. Может "каталог картинок"? Наш дизайнер хочет что-то подобное сделать для своих клипартов, да у него руки не доходят наделать превьюшек и описаний для огромного количества гигабайт.
Это не поисковик, это коллекция фото, графики, рисунков. Делается элементарно.
Ссылка на файл - заголовок - описание
По поисковому запросу ищется по заголовкам, выводятся файлы, далее по описанию, выводятся файлы. Ну особо продвинутые могут грамматику использовать и расширенный язык запросов.
А поисковик - это робот с правильным хождением по ссылкам надо писать, что сложнее:)
pauk, просто я думаю, что человеку, не знающему как устроен интернет вряд ли бы дали задание написать ТЗ для поисковой системы :) У меня в ВУЗе (гуманитарном) тоже была информатика и дальше, чем "а сегодня мы будем учиться посылать по почте вложенный файл" занятия интернетом не заходили..
Ну, а если барышня с математичского факультета, ей было проще спросить у одногруппников или еще кого.
PS просто очень часто люди путаются в понятиях и это лучше пресекать на корню :)
Всем спасибо большое.
Как устроен сайт я поняла, в html разберучь быстро.
Теперь у меня появился такой вопрос - как робот может ходить по интернету? В принципе он может зайти на один известный сайт и ходить по ссылкам , которые в нем содержатся. Но это может привести к зацикливанию, причем если изначальный сайт содержит мало ссылок, то множество найденных документов будет мало. Есть ли какие-нибудь открытые хранилища сайтов? (Я понимаю, что, в принципе, можно создать свое.)
Второй вопрос: на всех ли сайтах множество картинок содержится в отдельной папке? Это общее правило или просто рекомендация?
Третий вопрос: существует ли какая-то регистрация сайтов, которые ссылаются на данный сайт? То есть, когда какой-то сайт ссылается на расматриваемый, проставляется ли какая-нибудь метка на рассматриваемом сайте?
Заранее спасибо.
Галя, а Вы в Яндекс попроситесь в качестве стажера. А потом нам расскажете :).
PS Вообще похоже на стеб :)