Разработка тематической поисковой системы

12
SD
На сайте с 13.09.2005
Offline
0
2372

Необходим специалист, знающий: язык С, Юникс, разбирающиеся в интернет технологиях, архитектуре и механизмах поисковых систем. Опыт участия в аналогичных разработках приветствуется.

Возможность набрать "свою" команду под проект.

Цель: разработать полнофункциональную многосерверную поисковую систему, однако заведомо ограниченную определенной частью рунета/тематикой.

Предоставляется достойная оплата, полный доступ к стенду, безлимитный трафик, рабочее место в москве, возможность удовлетворить свои амбиции и заработать имя.

Работать предстоит в команде из 3 человек (разработчик, помощник, Qтестер) в течении 5-6 месяцев + возможность получения постоянной должности директора отдела поисковых технологий и участвовать в дальнейшей разработке полноценого поисковика в дальнейшем.

Если вы чувствуете в себе силы попробовать, или уже задействованы в каком либо подобном проекте, оставаясь на вторых ролях, но чуствуете в себе силы быть первым - это работа для вас.

Обращатся на почту mzk-stroy@mail.ru (прикладывайте резюме, рекомендации, ваше видение механизма реализации)

Advisor
На сайте с 24.11.2003
Offline
177
#1

где то здесь Evg бродил....

[Удален]
#2
se_developer:
Работать предстоит в команде из 3 человек (разработчик, помощник, Qтестер) в течении 5-6 месяцев + возможность получения постоянной должности директора отдела поисковых технологий и участвовать в дальнейшей разработке полноценого поисковика в дальнейшем.

Человек имеющий опыт, сразу обратит внимание на НЕ РЕАЛЬНЫЕ сроки для разработки такого проекта с нуля, практически в одиночку. Или вы хотите перекупить человека с уже имеющимся кодом ? Тогда, предложение надо ставить несколько иначе.

G
На сайте с 26.09.2005
Offline
10
#3

Господа, а можно такой вопрос - а с чего вообще должна начинаться разработка тематической поисковой системы?

ну скажем имеется тематика, имеется набор веб-ресурсов, которые следует индексировать. Ссылки на них можно получить различными способами, из разных там каталогов, страниц... сразу вопросы - как их отбирать, как их индексировать, как кластеризовать и т.п.? Как поиск осуществлять

кто нибудь может рассказать или будет так любезен - даст ссылочки, почитать? или может есть ссылочки на подобные тематические системы (интересует коненчо не музыка и фильмы)... а скажем поиск по определенной научной дисциплине?

[Удален]
#4
goover:
Господа, а можно такой вопрос - а с чего вообще должна начинаться разработка тематической поисковой системы?
ну скажем имеется тематика, имеется набор веб-ресурсов, которые следует индексировать. Ссылки на них можно получить различными способами, из разных там каталогов, страниц... сразу вопросы - как их отбирать, как их индексировать, как кластеризовать и т.п.? Как поиск осуществлять
кто нибудь может рассказать или будет так любезен - даст ссылочки, почитать? или может есть ссылочки на подобные тематические системы (интересует коненчо не музыка и фильмы)... а скажем поиск по определенной научной дисциплине?

Как я понимаю, тематическая поисковая система — поисковая система с ограниченным списком сайтов для индексации. Соответственно, основным ограничением для отбора списка служит тематика сайта. Никаких других особенностей я не вижу.

Пример тематического поисковика - www.xfiles.ru

Есть собственно полноценный поиск, и есть каталог: http://213.33.170.93/cgi-bin/ai/www/list_urls.pl

Самый простой способ начать — сделать мета поисковик, получающий XML выдачу от Яндекса. 200 запросов в день — бесплатно, ну а дальше — видно будет.

G
На сайте с 26.09.2005
Offline
10
#5
Самый простой способ начать — сделать мета поисковик, получающий XML выдачу от Яндекса. 200 запросов в день — бесплатно, ну а дальше — видно будет.

ну если мета, то не один яндекс нужен... я так понимаю? гугль тогда надо подключать, или кого то еще? у них тоже есть бесплатные API?

VT
На сайте с 27.01.2001
Offline
130
#6
Господа, а можно такой вопрос - а с чего вообще должна начинаться разработка тематической поисковой системы?

Могу рассказать, как мы создавали новостной поисковик Новотека .

Поэтапно:

1) Разработка концепции - общая философия работы системы. Здесь же рассматривали все сервисы, которые будут интересны пользователям, включая коммерческие.

2) Разработка алгоритмов итеративного обхода сайтов. Так как поисковик новостной, большинство сайтов нужно обходить едва ли не каждую минуту, при этом не нагружая сервера с электронными СМИ.

3) Изучение алгоритмов извлечения атрибутов новостей (заголовок, дата, текст) с HTML-страниц и шаблонизация сайтов.

4) Подбор новостных ресурсов для индексации.

5) Разработка системы сбора информации и шаблонизатора, запуск пилотного спайдера.

6) Разработка поискового движка и поискового интерфейса.

7) Изучение алгоритмов кластеризации новостей и создание собственного.

8) Разработка пилотной версии кластеризатора.

9) Разработка основного интерфейса Новотеки.

Примерно так.

G
На сайте с 26.09.2005
Offline
10
#7
Vyacheslav Tikhonov:
Могу рассказать, как мы создавали новостной поисковик Новотека .
Примерно так.

Вячеслав, спасибо! очень ценная информация. А вы не публиковали статей по своей системе? очень интересно было бы познакомиться поближе в частности со сбором новостей....

VT
На сайте с 27.01.2001
Offline
130
#8
Вячеслав, спасибо! очень ценная информация. А вы не публиковали статей по своей системе? очень интересно было бы познакомиться поближе в частности со сбором новостей....

Нет, пока не планировал, да и времени на это особенно нет. К тому же, я уже отошел от этого проекта, и думаю, что Ашманов не будет в особом восторге, если я начну раскрывать алгоритмы. :)

M
На сайте с 12.05.2005
Offline
133
#9
Vyacheslav Tikhonov:
Могу рассказать, как мы создавали новостной поисковик....

Не буду коментировать применение слова поисковая система к каталогу новостей http://www.novoteka.ru/... Заранее говорю я не принижаю достоинства данного каталога. Но большинство описаных вами этапов это непринципиальные моменты. И возможно как следствие этого слабая релевантность серпа.

Почему вы упускаете анализ серверных платформ и используемого ПО, алгоритмы спайдеров (чуть-чуть затронуто), организацию хранения данных, подсчета релевантности и т.п. вот это важно.

А кластеризация новостей :) - три сотрудника в две смены или использование готовых категорий Рамблера, Яндекса и т.п. А выделение дизайна в отдельную задачу :) 1000$ Артему и забыли.

VT
На сайте с 27.01.2001
Offline
130
#10
Не буду коментировать применение слова поисковая система к каталогу новостей http://www.novoteka.ru/... Заранее говорю я не принижаю достоинства данного каталога. Но большинство описаных вами этапов это непринципиальные моменты. И возможно как следствие этого слабая релевантность серпа.

Как бы то ни было, это именно поисковик - со сфокусированными спайдерами и прочими примочками. RSS используется, но для получения новостей с очень небольшого количества сайтов.

Почему вы упускаете анализ серверных платформ и используемого ПО, алгоритмы спайдеров (чуть-чуть затронуто), организацию хранения данных, подсчета релевантности и т.п. вот это важно.

Это все относится к поисковому ядру, о чем я и упомянул. ;)

А кластеризация новостей - три сотрудника в две смены или использование готовых категорий Рамблера, Яндекса и т.п. А выделение дизайна в отдельную задачу 1000$ Артему и забыли.

Все намного сложнее, чем кажется. Кластеризация новостей проводится автоматически для десятков тысяч рубрик - смотрите сайт.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий