Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Чтобы создать по-настоящему мудрый поисковик, нужно придумывать по-настоящему революционные технологии.

Вы так говорите, как-будто Яндекс и Гугль безгрешны, и ничего другого уже не нужно. На самом деле в информационном поиске есть великое множество нерешенных проблем, так что все только начинается.

Посмотрите здесь.

И что там смотреть?

Всё это может потянуть одна машина, вопрос только в том, что это будет за машина Кто хочет прикинуть конфигурацию ?

Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.

С днем рождения, Форум!

Респект, Gray!

Как там, получилось что-то? Каковы итоги?

Список работ - http://company.yandex.ru/grant/list.xml

Господа, не смог заставить прочитать себя весь этот бред...да и нахрена если речь не об этом

medaest, устное предупреждение за пренебрежительное отношение к участниками форума. Старайтесь соблюдать правила общения, принятые на форуме, либо получите штраф.

P.S. От себя добавлю, что незачем выставлять напоказ собственную глупость уже не в первом топике, причем в таком категоричном тоне, если не владеешь темой. Совет, ничего более.

Просто за поставленный в первом посте срок 3 бойца ничего кроме общего ТЗ не сделают.

Несомненно.

А поисковиком я не считаю http://www.novoteka.ru/ потому, что основное отличие поисковика от каталога в том, что поисковик работает от индекса а каталог от документа (описания).

Новотека работает примерно так же, как и новостной поисковик Google News - спайдер выкачивает сырые страницы(!) с новыми новостями, шаблонизатор извлекает данные, которые идут как в кластеризатор, так и в индексатор. Описание документа также формируется автоматически на основе текста новости - как правило, берется первый абзац, если он информативен.

Так что каталог новостей - это производное от всего остального. Вот для Яндекс-Новостей действительно все СМИ отдают уже готовые рубрицированные RSS. ;)

Вышла задержка: не по моей вине. Но в скорости, думаю, все расскажу и покажу.

Но где-то в Сети поисковик уже виден?

Не буду коментировать применение слова поисковая система к каталогу новостей http://www.novoteka.ru/... Заранее говорю я не принижаю достоинства данного каталога. Но большинство описаных вами этапов это непринципиальные моменты. И возможно как следствие этого слабая релевантность серпа.

Как бы то ни было, это именно поисковик - со сфокусированными спайдерами и прочими примочками. RSS используется, но для получения новостей с очень небольшого количества сайтов.

Почему вы упускаете анализ серверных платформ и используемого ПО, алгоритмы спайдеров (чуть-чуть затронуто), организацию хранения данных, подсчета релевантности и т.п. вот это важно.

Это все относится к поисковому ядру, о чем я и упомянул. ;)

А кластеризация новостей - три сотрудника в две смены или использование готовых категорий Рамблера, Яндекса и т.п. А выделение дизайна в отдельную задачу 1000$ Артему и забыли.

Все намного сложнее, чем кажется. Кластеризация новостей проводится автоматически для десятков тысяч рубрик - смотрите сайт.

Вячеслав, спасибо! очень ценная информация. А вы не публиковали статей по своей системе? очень интересно было бы познакомиться поближе в частности со сбором новостей....

Нет, пока не планировал, да и времени на это особенно нет. К тому же, я уже отошел от этого проекта, и думаю, что Ашманов не будет в особом восторге, если я начну раскрывать алгоритмы. :)

Всего: 847