爬虫 Archives - Page 82 of 92

《爬虫学习》（五）（爬虫实战之爬取天气信息）

1.大体框架列出+爬取网页： #数据可视化 from pyecharts import Bar #用来url连接登陆等功能 import requests #解析数据 from bs4 import BeautifulSoup #用来存取爬取到的数据 data = [] def parse_data(url): headers = { ‘User-Agent…

爬虫 2023年4月10日

000

node-cheerio插件实现网页爬虫

本文将介绍node使用cheerio插件，使jquery可以在服务端解析结构，实现精准查询并爬取数据一、导入相关依赖需要安装cheerio插件，使用npm i cheerio -S指令安装 const cheerio = require(‘cheerio’); //根据请求网址的协议来决定引入http还是https模块 const http = requ…

爬虫 2023年4月10日

000

python爬虫——BeautifulSoup详解（附加css选择器）

BeautifulSoup是一个灵活有方便的网页解系库，处理搞笑，支持多种解析器，利用他可以不编写正贼表达式即可方便实现网页信息的提取。解析库：我们主要用lxml解析器标签选择器： # coding=utf-8from bs4 import BeautifulSoup as bshtml = “””<html><h…

爬虫 2023年4月10日

000

Python-网络爬虫模块-requests模块之响应-response

当requests发送请求成功后，requests就会得到返回值，如果服务器响应正常，就会接收到响应数据； Response响应中的属性和方法常用属性： status_code: 数据类型：int 作用：返回HTTP响应的状态码：200、404、500、等 reason: 数据类型：str 作用：返回HTTP响应的描述：OK、Not Found、等 hea…

爬虫 2023年4月10日

000

Python 爬虫使用动态切换ip防止封杀

对于爬虫被封禁！爬虫一般来说只要你的ip够多，是不容易被封的。一些中小网站要封杀你，他的技术成本也是很高的，因为大多数网站没有vps，他们用的是虚拟空间或者是sae，bae这样的paas云。其实就算他们不考虑seo搜索优化，用ajax渲染网页数据，我也可以用webkit浏览器组件来搞定ajax之后的数据。如果某个网站他就是闲的蛋疼，他就是喜欢从lo…

爬虫 2023年4月10日

000

Python爬虫下载Bilibili番剧弹幕

本文绍如何利用python爬虫下载bilibili番剧弹幕。准备： python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibili番剧弹幕通过aid获取cid，如: http://www.bilibili.com/widget/getPageList?aid=9654289 下载弹幕…

爬虫 2023年4月10日

000

基础的爬虫框架及运行流程

基本的框架流程基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下：爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责URL链接的管理，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口。 HTML下载器用于从…

爬虫 2023年4月10日

000

Python爬虫之urllib-登录博客园

拟使用cookie登录网站（以博客园为例）：首先使用自己的账号和密码在浏览器登录，然后通过抓包拿到cookie，再将cookie放到请求之中发送请求即可 import urllib.request headers = { “authority”: “passport.cnblogs.com”, “method”: “GET”, “path”: “/user…

爬虫 2023年4月10日

000

爬虫数据处理 pandas数据处理

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True – keep参数：指定保留哪一重复的行数据映射 1) replace()函数：替换元素 DataFrame替换操作单值替换普通替换：替换所有符合要求的元素:to_replace=15,value=’…

爬虫 2023年4月10日

000

python爬虫：新冠疫情累计确诊数据爬取及数据可视化

一、数据爬取与整理丁香园网站 1.2 爬取思路：使用requests包发送get请求，获取响应的html页面（返回值类型为str）扫描字符串使用正则表达式匹配出描述国内数据的html语句去除多余字符并将匹配后结果整理成json文件 1.3 代码展示及文件说明: import json import re import requests impor…

爬虫 2023年4月10日

000