Vet

Рейтинг
28
Регистрация
19.01.2003
Как писал Terrano

Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.

Да я вот тоже пробую и еще такую штуку замутить у себя. Готовых программ не встречал. (НАверняка есть). Но опыт учит, что под свои задачи все равно чужое прикручивать трудно (хотя вопрос, конечно спорный). Я работаю на PHP и такая задача у меня решается с помощью базы данных(хотя и необязательно именно так). Мой маленький посковичок обшаривает нужные мне сайты, вытаскивает страницы по тематике, потом выводит это в интерфейс в переваренном виде (только текст и ссылка на живую страницу) и устанавливает в базе флаг, что здесь он был и по второму разу туда не лезет. Однако это система доморощенная вот и потребовалось, что-то более серьезное и продвинутое. Вот приходится пытать джентельменов вопросами.

Как писал Vyacheslav Tikhonov

Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.

Во как! Лихо! Задачка, которую мне поставили в размытом виде начинает приобретать более понятные очертания. Я и начал с того, что написал самодельный код. Но.. Самострок он и есть самострок.

Да, джентельмены. Подумать есть о чем. Нельзя ли уточнить термин "фокусированное сканирование".

Что касается фильтра, здесь конешно я себя вроде как нормально ощущаю.

Нет,нет.Задача скачивания сайтов не стоит. Только поиск страницы нужной тематики(микроэлектроника, если обобщить), потом проверка ее уже самодельным фильтром на предмет конкретного контекста и затем занесение ее или ссылки или отфильтрованного контекста в БД. Неважно в принципе как дальше обработать и куда положить. Поиск конечно будет в автомате по cron'у. Я попробовал сформировать Яндексу Get запрос и он неплохо на него реагирует. Но поскольку опыт работы с поисковиками у меня нулевой я вот и пристаю с вопросами. И очень благодарен за нормальное отношение на форуме.

Количество сайтов ограничено тематикой. Примерно 200-300 штук.

Как сделать поиск через форму на Яндексе или использовать Google API я

мягко говоря не в курсе. Где почитать?

Но вообще все, что предложено крайне для меня интересно и полезно. За это огромное спасибо.

Буду читать, разбираться. Вот только сроки мне поставили жесткие.

Необходимо искать требуемые страницы на других сайтах.

1 23
Всего: 25