钢铁侠的知识库
-
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 —- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数据解析的方法,也就是本章要介绍的Xpath表达式。 Xpath是什么 XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 X…
-
python爬虫之BeautifulSoup4使用
钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。 上一章我们讲解针对结构化的html、xml数据,使用Xpath实现网页内容爬取。本章我们再来聊另一个高效的神器:Beautiful Soup4。相比于传统正则表达方式去解析网页源代码,这个就简单得多,实践是检验真理的唯一标准,话不多说直接上号开搞验证。 Beautiful …
-
python 基于aiohttp的异步爬虫实战
钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。 之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待网站返回响应才能接着运行,而在整个爬虫过程中,整个爬虫程序是一直在等待的,实际上没有做任何事情。 像这种占用磁盘/内存IO、网络IO的任务,大部分时间是CPU在等待的操作,就叫IO密集型任务。对于…
-
pycharm设置python头文件模版
钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。使用pycharm创建python文件时候,有时候需要自动生成想要的文件头,如何生成呢? 只需要以下几步: 在file->settings中搜索temp,找到file and code templates->python script 即可自定pycharm创建文…