- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
ага подумаю сенки) всем кто помогает
пока пришла в голову мысль создать графическое приложение (для информативности что и как что то делает) из которогот будут запускаться в потоках краулер и спайдер и обмениваться между собой сообщениями(краулер будет посылать в спайдер урлы для стягивания страниц)..подскажите если я что не так мыслю
kasperlet, Я бы рекомендовала простой консольный мониторинг и логи. Если, конечно, вы работаете под юниксоподобием. Всегда хорошо, когда проге не требуются граф. оболочки.
з.ы. А вообще я всегда думала, что краулер и спайдер - это одно и то же. :D
Но всегда интересно знать, какие потоки и что читают в данный момент... :)
ну можно сказать что одно и тоже просто разные методы будук крутиться в разных потоках... на счет консоли и логов сенки (хотя работаю под виндой но идея рульная)..да еще подскажите странички в большинстве случаешь парсяться на наличие урлов регулярками?
Я полагаю, робот у Вас уже есть.
Тогда отправьте его в какой-то большой каталог сайтов, он пройдет по ним и соберет урлы сайтов, на которые стоят ссылки с каталога, пройдя по всем указанным сайтам, он соберет новые урлы и опять будет куда идти. etc
Не лучший вариант.
Если вести постоянные обращения в автоматическом режиме, то Яндекс может заблокировать IP, как неизвестный поисковик, не соблюдающий стандарт robots.txt. Насколько помню, прецеденты с блокированием были и даже обсуждались здесь на форуме где-то.
kasperlet,
Не обязательно регулярками. Да, в общем, одни только регулярные выражения не всегда правильно использовать. Можно парсить только ссылки <a href... а сплошной текст - можно регулярками.
p.s. Есть паук-родитель, который плодит пауков-потомков. Наверняка у вас именно так.
у меня еще нет паука я просто консультируюсь и собираю инфу чтобы все правильно сделать и не переисывать по 10 раз)
да еще вопрос паук тащит страничку в большинстве поисковиков методом HTTP
Get???
kasperlet, А как по-другому?
подскажите еще вот с таким ньансом (если с пауком впринципе все понятно то с парсингом страниц нет)
передача страницы на парсинг как в большинстве случаев осущ-тся? странички сливаються в какую нить директорию откуда их indexer подбирает и парсит на наличие ключевых слов и т.д или данные передаються indexer-у в поток для парсинга?