- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
По-научному это называется интеллектуальный агент, а не поисковая система :) Информацию можно, конечно, собирать из выдачи поисковиков, но этот метод не очень подходит, если ее свежесть ставится превыше всего. Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.
Лучше всего адаптировать какого-нибудь GNU-шного спайдера или, если есть опыт, написать его самому. При этом сбор специализированной информации обычно организовывают с помощью фокусированного сканирования (focused crawler). Поисковая система здесь не нужна - нужен хороший фильтр.
Во как! Лихо! Задачка, которую мне поставили в размытом виде начинает приобретать более понятные очертания. Я и начал с того, что написал самодельный код. Но.. Самострок он и есть самострок.
Да, джентельмены. Подумать есть о чем. Нельзя ли уточнить термин "фокусированное сканирование".
Что касается фильтра, здесь конешно я себя вроде как нормально ощущаю.
Я тоже озадачен такой же проблемой. Но как я понял автор знает свои 200-300 сайтов, а я нет. "Я не волшебник, я только учусь". Мне нужно найти эти сайты по ключевому слову. При поиске по Яндексу, он дает кучу сайтов я начинаю ходить по ссылкам, читать, анализировать. Но, не будешь ведь сидеть до победного конца в интернете, через какое-то время уходишь. На следующий день снова ищешь. Нет ли каких либо программ которые помогли бы мне отсортировать информацию, "разложить все по корзинам: 1 - это нужные сайты, 2 - это не нужные, 3 - непонятные (потом разберусь), ну допустим все. Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.
Сильно не пинайте. Честно прочитал от корки до корки "Любые вопросы от новичков" не хотелось бы получать устные замечания на первом своем вопросе.
Цель фокусированного сканирования заключается в том, чтобы среди всего множества известных страниц отобрать лишь те, которые соответствуют заданной тематике. Тематика опрелеляется не с помощью ключевых слов, а в виде эталонных документов, которые к ней относятся. Подробнее смотрите в статье
Focused crawling: A new approach to topic-specific Web resource discovery .
Но вообще для начала неплохо было бы сначала познакомиться с самим понятием спайдера.
На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.
Эти "корзины" нужны для того, чтобы на следующий день я не получал их при поиске, т.е. Яндекс конечно их будет выдавать, а вот программа допустим скажет мне, что я этот сайт уже видел. Этот сайт лежит в "корзине" номер 2, например. Ну что-то в этом роде.
Да я вот тоже пробую и еще такую штуку замутить у себя. Готовых программ не встречал. (НАверняка есть). Но опыт учит, что под свои задачи все равно чужое прикручивать трудно (хотя вопрос, конечно спорный). Я работаю на PHP и такая задача у меня решается с помощью базы данных(хотя и необязательно именно так). Мой маленький посковичок обшаривает нужные мне сайты, вытаскивает страницы по тематике, потом выводит это в интерфейс в переваренном виде (только текст и ссылка на живую страницу) и устанавливает в базе флаг, что здесь он был и по второму разу туда не лезет. Однако это система доморощенная вот и потребовалось, что-то более серьезное и продвинутое. Вот приходится пытать джентельменов вопросами.
На всякий случай предостерегу - если вы собираетесь в автоматизированном режиме собирать информацию с выдачи Яндекса, то вы рискуете остаться со своим желанием собрать информацию. Примеров масса.
Спасибо за дополнительное подтверждение. Я уже было сунулся и получил в ответ от Яндекса красиво скрученную фигуру из трех пальцев. Читать дает, но вытащить ссылки не получилось, а потом даже если бы и вышло, как все это переварить. Вопрос.
Хорошо. Так какие-же варианты остаются. Про mnogoseach никто вообще не высказался. Значит не так актуально это для автоматического сбора инфы. Или я не прав?
-надо вытаскивание ссылок персонально под Яндекс заточить, там ссылки со скриптом и href, см. source. Gray имел в виду, что если 1000 быстрых http-запросов сделать, Яндекс отключит твой ip. Тоже если зайти в директорию /norobots/, невидимая ссылка на нее есть в тексте страницы.
Спасибо. Вот какие нюансы!
Если можно немного продолжить тему. Оставим Яндекс в покое. Мне не нравится IE. Если я напишу свой броузер (круто я замахнулся, пусть будет плагин к Explorer'у), у которого вместо имеющегося сейчас ИЗБРАННОЕ будет нечто (с более удобным меню) индексированная база данных названий сайтов, и др. кроме текста, с поиском сайтов (их как много 200-300). Допустим мы не будем пользоваться быстрыми (1000 шт) http запросами. Мне ведь нужно посмотреть на сайт, т.е. открыть его в окне, потыкать мышкой на иконки, чтобы понять нужен мне этот сайт или нет. Что тогда? Можно ли использовать программу без боязни за то, что Яндекс отключит ip?