Селениум Питон - вопрос - Веб-строительство - Сайтостроение

1115

Dram

27 июля 2021, 17:54

1804

Изучаю принципы парсинга через питон с использованием селениума.

Простые сайты подергал, проблем нет. Перешел к более сложным, вот пример кода

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome("/root/chromedriver",chrome_options=chrome_options)

driver.get('https://kad.arbitr.ru/')
elem = driver.find_element_by_xpath("/html/body/div[1]/table/tbody/tr/td[1]/h1")
page = driver.page_source

print(element.text)
driver.quit()

Выдает пустую строку, хотя если вывести в принт page - то там есть h1

Что не так?

S3

391

Sly32

28 июля 2021, 04:10

#1

Скорее всего неправильно прописан путь к элементу. Также можно драйверами поиграться. Как вы определяли путь, в консоли смотрели?

S3

391

Sly32

28 июля 2021, 04:12

#2

Судя по коду должен давать ошибку

Как минимум надо print(elem.text)

D

1115

Dram

28 июля 2021, 04:34

#3

Sly32 #:
Судя по коду должен давать ошибку

Как минимум надо print(elem.text)

Это я уже тут ошибся. Путь до элемента копировал в браузере "Copy full XPath".

ПРобовал так же на этом сайте (kad.arbitr.ru) вытащить произвольный элемент по ID

elem = driver.find_element_by_id('element_id')

Тоже самое - пустая строка. Но я бы еще понял если бы там защита какая-то стояла, но ведь в driver.page_source весь код страницы попадает, почему тогда не находит отдельные элементы не понятно

Вопрос по PHP, DOM, не подключается simple_html_dom.php Google AdSense FAQ -

S3

391

Sly32

28 июля 2021, 06:53

#4

Dram #:

Это я уже тут ошибся. Путь до элемента копировал в браузере "Copy full XPath".

ПРобовал так же на этом сайте (kad.arbitr.ru) вытащить произвольный элемент по ID

Тоже самое - пустая строка. Но я бы еще понял если бы там защита какая-то стояла, но ведь в driver.page_source весь код страницы попадает, почему тогда не находит отдельные элементы не понятно

все та же причина - неправильно прописан путь к элементу или название элемента. И можешь поиграться с другими драйверами, например к мозилле

T7

63

timo-71

28 июля 2021, 07:08

#5

Dram :
Выдает пустую строку, хотя если вывести в принт page - то там есть h1

print('innerHTML', elem.get_attribute("innerHTML"))

Ибо

.b-arbitr-header-title h1 {
        padding: 9px 0 0 10px;
        font-size: 15px;
        font-weight: normal;
        display: none;
}

1

D

1115

Dram

28 июля 2021, 08:19

#6

timo-71 спасибо! Теперь понятно, не думал сто селениум ксс учитывает

1785

LEOnidUKG

28 июля 2021, 08:50

#7

Dram #:
timo-71 спасибо! Теперь понятно, не думал сто селениум ксс учитывает

В этом и прикол использования селениум, что он эмулирует браузер. Если этого НЕ нужно, тогда он вообще зачем? Можно просто страницу тем же Питоном тягать и всё.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/

W1

306

webinfo

28 июля 2021, 08:58

#8

LEOnidUKG #:
Если этого НЕ нужно, тогда он вообще зачем?

Есть как бы 2 стороны: CSS и JS. На мой взгляд, для целей ТС было бы оптимально, если бы первое не учитывалось, а второе работало бы. Что бы было как в инструментах разработчика: видны все элементы после отрабатывания JS, независимо от CSS. Если просто "тягать страницу", то так не получится.

Google разослал уведомления о Новые возможности настройки внешнего WordPress Gutenberg помогает улучшить

154

fillonon

28 июля 2021, 09:02

#9

elem и element это разные переменные же

Бесплатный Seo анализ сайта ( https://seouspeh.ru/seo-analysis ) / Если нужно SEO продвижение ( https://seouspeh.ru/ ) - конкурировал с миллиардерами в поиске / Почему на сайте резкое падение трафика ( https://seouspeh.ru/seo/rezkoe-padenie-trafika-stolknovenie-s-filtrami-poiskovyx-sistem-yandeks-i-google.html )

S3

391

Sly32

28 июля 2021, 09:35

#10

Dram #:
timo-71 спасибо! Теперь понятно, не думал сто селениум ксс учитывает

селениум работает с результирующей html-страницей а не с кодом. Что браузер выдал - там и ходит, естествено, если элемент скрыт, то он его не найдет. На самом деле он не для парсинга а для тестирования был написан

Facebook подтвердил, что работает Яндекс запустил открытое бета-тестирование Chrome Frame приложения на

Google: E-E-A-T не является фактором ранжирования

Зачем быть уникальным в мире, где все можно скопировать

Селениум Питон - вопрос