【发布时间】:2023-04-01 00:21:02
【问题描述】:
我正在尝试使用 bs4 和 Selenium 从网站中提取 HREF。但是,当我使用 Beautiful Soup 解析 HTML 时,我正在寻找的元素会丢失。当我稍后尝试搜索它们时,我只会得到 NoneType 对象。
以下是我想删除的内容:
我正在使用以下代码快速解析:
my_url = browser.current_url
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
但是当我跑步时:
squeeps = page_soup.findAll("div",{'id':'pcisBody'})
squeeps[0]
这就是我得到的全部:
<div id="pcisBody">
<img alt="loading" height="40" src="/OnlineServices/Images/loading.gif" width="40"/>
<span id="pcisLoading">Retrieving Data...</span>
</div>
任何帮助将不胜感激!!这是链接:https://www.ladbsservices2.lacity.org/OnlineServices/PermitReport/PermitResults/444952
【问题讨论】:
-
您需要使用 Selenium 获取网站的 page_source 并将其内容传递给 BS4。
-
请分享链接
标签:
python
html
selenium
web-scraping
beautifulsoup
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:抓取网站时缺少 HTML 元素。 Python - Python技术站