- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Изучаю принципы парсинга через питон с использованием селениума.
Простые сайты подергал, проблем нет. Перешел к более сложным, вот пример кода
Выдает пустую строку, хотя если вывести в принт page - то там есть h1
Что не так?
Судя по коду должен давать ошибку
Это я уже тут ошибся. Путь до элемента копировал в браузере "Copy full XPath".
ПРобовал так же на этом сайте (kad.arbitr.ru) вытащить произвольный элемент по ID
Тоже самое - пустая строка. Но я бы еще понял если бы там защита какая-то стояла, но ведь в driver.page_source весь код страницы попадает, почему тогда не находит отдельные элементы не понятно
Это я уже тут ошибся. Путь до элемента копировал в браузере "Copy full XPath".
ПРобовал так же на этом сайте (kad.arbitr.ru) вытащить произвольный элемент по ID
Тоже самое - пустая строка. Но я бы еще понял если бы там защита какая-то стояла, но ведь в driver.page_source весь код страницы попадает, почему тогда не находит отдельные элементы не понятно
все та же причина - неправильно прописан путь к элементу или название элемента. И можешь поиграться с другими драйверами, например к мозилле
Выдает пустую строку, хотя если вывести в принт page - то там есть h1
Ибо
timo-71 спасибо! Теперь понятно, не думал сто селениум ксс учитывает
В этом и прикол использования селениум, что он эмулирует браузер. Если этого НЕ нужно, тогда он вообще зачем? Можно просто страницу тем же Питоном тягать и всё.
Если этого НЕ нужно, тогда он вообще зачем?
Есть как бы 2 стороны: CSS и JS. На мой взгляд, для целей ТС было бы оптимально, если бы первое не учитывалось, а второе работало бы. Что бы было как в инструментах разработчика: видны все элементы после отрабатывания JS, независимо от CSS. Если просто "тягать страницу", то так не получится.
timo-71 спасибо! Теперь понятно, не думал сто селениум ксс учитывает
селениум работает с результирующей html-страницей а не с кодом. Что браузер выдал - там и ходит, естествено, если элемент скрыт, то он его не найдет. На самом деле он не для парсинга а для тестирования был написан