все зависит от масштабов работы
wget довольно аккуратно качает и этот код конечно можно переиспользовать, но доводить конечно придется.
Например, он не умеет хранить очереди на диске =>
неустойчив к перезапуску и не готов выполнять длинные
задачи (список найденных и еще непосещенных ссылокрастет намного быстрее списка посещенных)
Далее - многопоточное скачивание, асинхронный DNS,
балансировщик нагрузки, реализация стратегии обхода ...
Вообщем, wget - это 10%.
Это вы зря.
Задача генерации запросов вероятно не совсем тривиальна (даже метапоисковые системы мучаются), а здесь надо переформулировать.
Если же речь идет еще и поисковом роботе,
то это еще сложнее поскольку кроме описания
цели поиска нужна еще и стратегия.
Это в англоязычной литературе обычно называют
focused или topical crawling.
Можно например посмотреть статью с www 2003 или предыдущие конференции, чтобы получить представление о том как это делается.
Если правила обработки текстов подразумевают
извлечение информации или трансформацию, то
возможно потребуются нетривиальные методы
information extraction.
Вообщем все очень сильно зависит от того какое качество результатов вы хотите получить и о каком объеме информации идет речь.
сравните
http://www.google.com.ru/
В индексе 3,083,324,652 документов
http://www.yandex.ru/chisla.html
Количество уникальных документов: 88 032 308
Кроме того это также зависит и от нагрузки (количества запросов в секунду)