Да я вот тоже пробую и еще такую штуку замутить у себя. Готовых программ не встречал. (НАверняка есть). Но опыт учит, что под свои задачи все равно чужое прикручивать трудно (хотя вопрос, конечно спорный). Я работаю на PHP и такая задача у меня решается с помощью базы данных(хотя и необязательно именно так). Мой маленький посковичок обшаривает нужные мне сайты, вытаскивает страницы по тематике, потом выводит это в интерфейс в переваренном виде (только текст и ссылка на живую страницу) и устанавливает в базе флаг, что здесь он был и по второму разу туда не лезет. Однако это система доморощенная вот и потребовалось, что-то более серьезное и продвинутое. Вот приходится пытать джентельменов вопросами.
Во как! Лихо! Задачка, которую мне поставили в размытом виде начинает приобретать более понятные очертания. Я и начал с того, что написал самодельный код. Но.. Самострок он и есть самострок.
Да, джентельмены. Подумать есть о чем. Нельзя ли уточнить термин "фокусированное сканирование".
Что касается фильтра, здесь конешно я себя вроде как нормально ощущаю.
Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД. Неважно в принципе как дальше обработать и куда положить. Поиск конечно будет в автомате по cron'у. Я попробовал сформировать Яндексу Get запрос и он неплохо на него реагирует. Но поскольку опыт работы с поисковиками у меня нулевой я вот и пристаю с вопросами. И очень благодарен за нормальное отношение на форуме.
Количество сайтов ограничено тематикой. Примерно 200-300 штук.
Как сделать поиск через форму на Яндексе или использовать Google API я
мягко говоря не в курсе. Где почитать?
Но вообще все, что предложено крайне для меня интересно и полезно. За это огромное спасибо.
Буду читать, разбираться. Вот только сроки мне поставили жесткие.
Необходимо искать требуемые страницы на других сайтах.