爬虫 Archives - Page 74 of 133

Python 爬虫

1. 配置第三方包 # 时间的模块 import datetime # 数据分析模块，用来处理excel import pandas as pd #用来构造xlsx文件的模块 import xlsxwriter as xlw # 用来爬取数据的模块 from urllib import request # HTML或XML标签中的内容解析器 from bs4…

爬虫 2023年4月12日

000

C#多线程使用webbrowser实现采集动态网页的爬虫机器人

今天在园子里看到巧用C#webbrowser以及Application.DoEvents()实现采集动态网页的爬虫机器人其实之前我也是用类似的方法来抓取需要登陆的web页面,和一些动态加页的面页我今天要说的是如何实现多线程使用webborwser采集页面其中我用到了一个WeiFenLuo.winFormsUI.Docking.dll,是一个开源的组建…

爬虫 2023年4月12日

000

Python网络爬虫(selenium基本使用)

一、selenium简介　　selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器二、环境安装下载安装selenium：pip install s…

爬虫 2023年4月12日

000

Python网络爬虫(持久化存储)

一、基于终端指令的持久化存储　　保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 # 执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx…

爬虫 2023年4月12日

000

Python网络爬虫(scrapy管道类之ImagesPipeline)

　　ImagesPipeline是scrapy自带的类，用来处理图片（爬取时将图片下载到本地）用的。优势：将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤异步下载 …… 工作流程：爬取一个Item，将图片的URLs放入image_urls字段从Spider返回的Item，传递到Item Pipeline 当I…

爬虫 2023年4月12日

000

Python网络爬虫(数据解析-bs4模块)

一、实现数据爬取流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储　　在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。二、BeautifulSoup环境安装　　环境配置 – 需要将pip源设置为国内源，阿里源…

爬虫 2023年4月12日

000

Python网络爬虫(scrapy中selenium的应用)

一、项目背景　　在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建…

爬虫 2023年4月12日

001

Python网络爬虫(增量式爬虫)

一、增量式爬虫背景：　　当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢？二、增量式爬虫分析与设计概念：通过爬虫…

爬虫 2023年4月12日

000

Python网络爬虫(scrapy的日志等级和请求传参)

一、Scrapy的日志等级　　在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。　　日志信息的种类：　　　　ERROR ：一般错误　　　　WARNING : 警告　　　　INFO : 一般的信息　　　　DEBUG ：调试信息　　　　　设置日志信息指定输出： # 在setti…

爬虫 2023年4月12日

000

Python网络爬虫(selenium配置无头浏览器)

一、无头浏览器(phantomJS) 　　PhantomJS是一款无界面的浏览器，其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的，为了能够展示自动化操作流程，PhantomJS为用户提供了一个截屏的功能，使用save_screenshot函数实现。　　目前PhantomJS浏览器官方已停止维护，不建议使用 from selenium impo…

爬虫 2023年4月12日

000