Python爬虫总结

2023年4月13日上午2:45 • 爬虫

基本的读取

import urllib2
http=urllib2.urlopen("http://xxxxx").read().decode('utf-8')


使用代理
import urllib2
proxy=urllib2.ProxyHandler({'http':'http://xxxxxx:xxxx'})
opener=urllib2.build_opener(proxy,urllib2.HTTPHandler)
urllib2.install_opener(opener)
html=urllib2.urlopen("xxxxxxx").read().decode('utf-8')


使用cookie

import urllib2,cookielib
cookies=urllib2.HTTPCookieProcessor(cookielib.CookieJar())
opener=urllib2.build_opener(cookies,urllib2.HTTPHandler)
urllib2.install_opener(opener)
html=urllib2.urlopen('xxxxxxx').read()

同时使用代理和cookie时更改

opener=urllib2.build_opener(proxy,cookies,urllib2.HTTPHandler)


表单的处理
要先截获报文，这里举例post内是username,passwd,login_submint

import urllib2
postdata=urllib2.urlencode({
'username':'xxxxxx',
    'passwd':'xxxxxx',
    'login_submint':'登录'
})

然后生成http请求再发送

req=urllib2.Request(
url='xxxxxxxxx',
    data=postdata
)
result=urllib2.urlopen(req).read()



伪装浏览器行为

headers={'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

req=urllib2.Request(
url='xxxxxxxxx',
    data=postdata,
    headers=headers
)
result=urllib2.urlopen(req).read()



反盗链
headers中加入Referer

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫总结 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

基于协程的爬虫

上一篇 2023年4月13日

PHP简单爬虫基于QueryList采集库和 ezsql数据库操作类

下一篇 2023年4月13日

Python网络爬虫笔记（二）：链接爬虫和下载限速

（一）代码1（link_crawler()和get_links()实现链接爬虫） 1 import urllib.request as ure 2 import re 3 import urllib.parse 4 from delayed import WaitFor 5 #下载网页并返回HTML(动态加载的部分下载不了) 6 def download(u…

爬虫 2023年4月16日
000
python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

下面是详细讲解“python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)”的攻略。 1. 准备工作在开始之前，我们需要先准备好以下工具和库： Python3.x环境 Chrome浏览器 Chrome浏览器驱动：根据自己使用的Chrome版本下载对应的驱动 requests、selenium、pyquery等Python库 2. 分析网页结构在使用P…

python 2023年5月14日
000
优酷评论爬虫+词云图

最近在优酷看了杨洋和zs主演的某部青春爱情电视剧。所以想到观察一下它的评论，同时学习一下Python文本处理的基础知识。首先第一部分就是获取评论数据。 import json import requests import pickle url = ‘https://p.comments.youku.com/ycp/comment/pc/commentLis…

爬虫 2023年4月12日
000
Python 爬虫的工具列表大全

下面我将为您详细讲解“Python 爬虫的工具列表大全”的完整攻略。标题首先，我们来到这篇文章的标题部分。在Markdown中，标题的表示方法是使用“#”符号。文章的标题应该使用一级标题，即在标题文本下面加上一个“#”。如下： # Python 爬虫的工具列表大全该标题使用了一级标题的表示方法，即一个“#”符号后面直接加上标题文本，不需要其他符号或空格…

python 2023年5月14日
000
Python爬虫实战——爬取今日头条美女图片

推荐下我自己创建的Python学习交流群923414804，这是Python学习交流的地方，不管你是小白还是大牛，小编都欢迎，不定期分享干货，包括我整理的一份适合零基础学习Python的资料和入门教程。笔者是头条的深度使用者，经常用头条完成“看片”大业。若不信的话可以试试在头条搜索街拍，返回的都是一道道靓丽的风景线。想把图片存下来，该怎么办呢？我们可…

爬虫 2023年4月11日
000
爬虫

python爬虫获取疫情信息并存入mysql数据库实践

上一次做了全国疫情统计可视化图表，这次尝试着能不能实现数据库里的更新操作，首先考虑的就是python爬虫，因为它易操作，并且python学习也是日后必须的。通过从网上查阅学习，代码如下： import requests from bs4 import BeautifulSoup import re import pymysql import…

2023年4月11日
000
python正则爬取某段子网站前20页段子(request库)过程解析

下面是“Python正则爬取某段子网站前20页段子（Request库）过程解析”的详细攻略。 1. 前置知识在学习本篇攻略之前，你需要掌握一些基本的Python知识和爬虫相关知识： Python基础：掌握Python的常用数据类型、流程控制语句、函数等基本知识； requests库：掌握requests库的基本用法，包括发起请求、设置请求头、获取响应内容等…

python 2023年5月14日
000
Python爬虫入门教程：爬取boss直聘招聘数据并做可视化展示

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本开发环境 Python 3.8 Pycharm 相关模块的使用 from selenium import webdriver import csv 安装Python并添加到环境变量，pip安装需要的相关模块即可。如图所示，通过 Py…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部