- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Первое что нужно сделать - это научить паука уважать robots.txt. Соответсвенно ему нужно имя, и всякие file_get_contents() здесь не потянут. Если хочется быстро и просто, можно поиграть со snoopy в php, а для многопоточности FunkLoad на питоне.
А уж добывать содержимое файлов - это по жизни само сабой получится. А с индиксаторами потом на локалке можно сколько угодно играть.
Первое что нужно сделать - это научить паука уважать robots.txt.
А потом второе, третье - и вот это уже ни разу не простой паук, а навороченный бот. :)
Хотя роботс таки да, нужно учитывать.
WhiteShaman,
Судя по Вашим словам в соседней ветке, Вы близки к кругам, в которых плюют на robots.txt, а навороченные боты нужны для обхода картинок ;)
WhiteShaman,
Судя по Вашим словам в соседней ветке, Вы близки к кругам, в которых плюют на robots.txt, а навороченные боты нужны для обхода картинок ;)
В кругах, к которым я близок... пишутся очень навороченные боты, которые никуда и ни на кого не плюют. И люди, которые их пишут, изначально понимают, за что берутся - а не говорят: "да вот щас напишем в 10 строк на пхп... а, да еще роботс.txt надо учитывать!.. да, еще то... да, еще сё... ну короче еще 10 минут... часов... дней... (месяцев... лет...) - и бот готов!" :)