Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

3 ноября 2005, 22:43

Чтобы создать по-настоящему мудрый поисковик, нужно придумывать по-настоящему революционные технологии.

Вы так говорите, как-будто Яндекс и Гугль безгрешны, и ничего другого уже не нужно. На самом деле в информационном поиске есть великое множество нерешенных проблем, так что все только начинается.

Разработка поисковой системы

28 октября 2005, 12:51

Посмотрите здесь.

И что там смотреть?

Паук в аренду :)

25 октября 2005, 09:34

Всё это может потянуть одна машина, вопрос только в том, что это будет за машина Кто хочет прикинуть конфигурацию ?

Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.

Нам еще и 5 лет, между прочим, исполняется...

24 октября 2005, 11:43

С днем рождения, Форум!

Респект, Gray!

Научные стипендии

24 октября 2005, 11:40

Как там, получилось что-то? Каковы итоги?

Список работ - http://company.yandex.ru/grant/list.xml

Географический поиск (GIR - Geographic Information Retrieval)

18 октября 2005, 12:17

Господа, не смог заставить прочитать себя весь этот бред...да и нахрена если речь не об этом

medaest, устное предупреждение за пренебрежительное отношение к участниками форума. Старайтесь соблюдать правила общения, принятые на форуме, либо получите штраф.

P.S. От себя добавлю, что незачем выставлять напоказ собственную глупость уже не в первом топике, причем в таком категоричном тоне, если не владеешь темой. Совет, ничего более.

Разработка тематической поисковой системы

18 октября 2005, 09:14

Просто за поставленный в первом посте срок 3 бойца ничего кроме общего ТЗ не сделают.

Несомненно.

А поисковиком я не считаю http://www.novoteka.ru/ потому, что основное отличие поисковика от каталога в том, что поисковик работает от индекса а каталог от документа (описания).

Новотека работает примерно так же, как и новостной поисковик Google News - спайдер выкачивает сырые страницы(!) с новыми новостями, шаблонизатор извлекает данные, которые идут как в кластеризатор, так и в индексатор. Описание документа также формируется автоматически на основе текста новости - как правило, берется первый абзац, если он информативен.

Так что каталог новостей - это производное от всего остального. Вот для Яндекс-Новостей действительно все СМИ отдают уже готовые рубрицированные RSS. ;)

Географический поиск (GIR - Geographic Information Retrieval)

18 октября 2005, 08:57

Вышла задержка: не по моей вине. Но в скорости, думаю, все расскажу и покажу.

Но где-то в Сети поисковик уже виден?

Разработка тематической поисковой системы

18 октября 2005, 08:45

Не буду коментировать применение слова поисковая система к каталогу новостей http://www.novoteka.ru/... Заранее говорю я не принижаю достоинства данного каталога. Но большинство описаных вами этапов это непринципиальные моменты. И возможно как следствие этого слабая релевантность серпа.

Как бы то ни было, это именно поисковик - со сфокусированными спайдерами и прочими примочками. RSS используется, но для получения новостей с очень небольшого количества сайтов.

Почему вы упускаете анализ серверных платформ и используемого ПО, алгоритмы спайдеров (чуть-чуть затронуто), организацию хранения данных, подсчета релевантности и т.п. вот это важно.

Это все относится к поисковому ядру, о чем я и упомянул. ;)

А кластеризация новостей - три сотрудника в две смены или использование готовых категорий Рамблера, Яндекса и т.п. А выделение дизайна в отдельную задачу 1000$ Артему и забыли.

Все намного сложнее, чем кажется. Кластеризация новостей проводится автоматически для десятков тысяч рубрик - смотрите сайт.

Разработка тематической поисковой системы

18 октября 2005, 06:58

Вячеслав, спасибо! очень ценная информация. А вы не публиковали статей по своей системе? очень интересно было бы познакомиться поближе в частности со сбором новостей....

Нет, пока не планировал, да и времени на это особенно нет. К тому же, я уже отошел от этого проекта, и думаю, что Ашманов не будет в особом восторге, если я начну раскрывать алгоритмы. :)

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Vyacheslav Tikhonov