钢铁侠的知识库 Archives

Python爬虫之xpath语法及案例使用

Python爬虫之xpath语法及案例使用 —- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时，经常需要对网页提取信息，如果用传统正则表达去写会增加很多工作量，此时需要一种对数据解析的方法，也就是本章要介绍的Xpath表达式。 Xpath是什么 XPath，全称 XML Path Language，即 XML 路径语言，它是一门在 X…

Python开发 2023年4月2日

000

python爬虫之BeautifulSoup4使用

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。本章我们再来聊另一个高效的神器：Beautiful Soup4。相比于传统正则表达方式去解析网页源代码，这个就简单得多，实践是检验真理的唯一标准，话不多说直接上号开搞验证。 Beautiful …

Python开发 2023年4月2日

000

python 基于aiohttp的异步爬虫实战

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。之前我们使用requests库爬取某个站点的时候，每发出一个请求，程序必须等待网站返回响应才能接着运行，而在整个爬虫过程中，整个爬虫程序是一直在等待的，实际上没有做任何事情。像这种占用磁盘/内存IO、网络IO的任务，大部分时间是CPU在等待的操作，就叫IO密集型任务。对于…

Python开发 2023年4月2日

000

pycharm设置python头文件模版

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。使用pycharm创建python文件时候，有时候需要自动生成想要的文件头，如何生成呢？只需要以下几步：在file->settings中搜索temp，找到file and code templates->python script 即可自定pycharm创建文…

Python开发 2023年3月31日

000