Вы так говорите, как-будто Яндекс и Гугль безгрешны, и ничего другого уже не нужно. На самом деле в информационном поиске есть великое множество нерешенных проблем, так что все только начинается.
И что там смотреть?
Потянуть-то вполне потянет, и поиск работать будет, но обновлять такой индекс из-за большого размера будет непросто. И долго.
С днем рождения, Форум!
Респект, Gray!
Список работ - http://company.yandex.ru/grant/list.xml
medaest, устное предупреждение за пренебрежительное отношение к участниками форума. Старайтесь соблюдать правила общения, принятые на форуме, либо получите штраф.
P.S. От себя добавлю, что незачем выставлять напоказ собственную глупость уже не в первом топике, причем в таком категоричном тоне, если не владеешь темой. Совет, ничего более.
Несомненно.
Новотека работает примерно так же, как и новостной поисковик Google News - спайдер выкачивает сырые страницы(!) с новыми новостями, шаблонизатор извлекает данные, которые идут как в кластеризатор, так и в индексатор. Описание документа также формируется автоматически на основе текста новости - как правило, берется первый абзац, если он информативен.
Так что каталог новостей - это производное от всего остального. Вот для Яндекс-Новостей действительно все СМИ отдают уже готовые рубрицированные RSS. ;)
Но где-то в Сети поисковик уже виден?
Как бы то ни было, это именно поисковик - со сфокусированными спайдерами и прочими примочками. RSS используется, но для получения новостей с очень небольшого количества сайтов.
Это все относится к поисковому ядру, о чем я и упомянул. ;)
Все намного сложнее, чем кажется. Кластеризация новостей проводится автоматически для десятков тысяч рубрик - смотрите сайт.
Нет, пока не планировал, да и времени на это особенно нет. К тому же, я уже отошел от этого проекта, и думаю, что Ашманов не будет в особом восторге, если я начну раскрывать алгоритмы. :)