Python爬虫之urllib-登录博客园

2023年4月10日下午8:50 • 爬虫

拟使用cookie登录网站（以博客园为例）：

首先使用自己的账号和密码在浏览器登录，然后通过抓包拿到cookie，再将cookie放到请求之中发送请求即可

import urllib.request

headers = {
    "authority": "passport.cnblogs.com",
    "method": "GET",
    "path": "/user/LoginInfo?callback=jQuery1709735225435330517_1546482577013&_=1546482577074",
    "scheme": "https",
    "accept": "*/*",
    #"accept-encoding": "gzip, deflate, br", #如果有gzip和deflate 后面会打印二进制处理
     "accept-encoding": "br",
    "accept-language": "zh-CN,zh;q=0.9",
    "cookie": "ga=GA1.2.1160747923.15453653550; __gads=ID=2c50bb50d0bb45d90:T=1545369966:S=AL.......略",
    "referer": "https://i.cnblogs.com/",
    "user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
    "x-requested-with": "XMLHttpRequest"
}

request = urllib.request.Request("https://www.cnblogs.com/commitsession", headers=headers)

response = urllib.request.urlopen(request)

print(response.read().decode('utf-8'))
#不replace  直接decode 会报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
#print(response.read().decode('utf-8', errors="replace"))

控制台打印：

Python爬虫之urllib-登录博客园

参考报错处理、参考decode、参考urllib

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫之urllib-登录博客园 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫数据处理 pandas数据处理

上一篇 2023年4月10日

基础的爬虫框架及运行流程

下一篇 2023年4月10日

如何避免反爬机制？

为了避免反爬机制，我们需要采取一些措施来模拟真实用户访问行为，尽可能地减少爬虫被识别的概率。以下是一些具体的措施：修改User-Agent 大部分网站都会通过检查User-Agent来判断请求是否来自爬虫，因此我们需要将爬虫的User-Agent修改为浏览器的User-Agent，使得服务器难以判断该请求是否来自爬虫。可以从多个网站上获得一些常见的User…

爬虫 2023年4月20日
000
Python爬虫爬取新闻资讯案例详解

Python爬虫爬取新闻资讯案例详解 Python爬虫可以用来获取互联网上的各种数据，包括新闻资讯。本文将详细讲解如何使用Python爬虫爬取新闻资讯，并提供两个示例说明。 1. 确定目标新闻网站首先要明确需要爬取的新闻资讯网站，比较常见的包括新浪、腾讯、网易等。不同的网站可能需要不同的爬虫策略，需要针对具体情况进行选择。 2. 分析网站结构在确定了目标…

python 2023年5月14日
001
python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTT…

爬虫 2023年4月13日
000
爬虫之xpath插件下载与安装

目录简介：下载xpath文件打开chrome浏览器点击右上角小圆点更多工具、阔展程序拖拽xpath插件放到阔展程序如果失效，再次拖拽关闭浏览器重新打开按ctrl+shift+x 出现小黑框 1.简介 XPath Helper是一款免费的专用于chrome内核浏览器的实用型爬虫网页解析工具。当然还可对查询出的xpath进行编辑，正确…

爬虫 2023年4月12日
000
爬虫

Python爬虫：scrapy 的运行流程和各模块的作用

爬虫 -> 起始URL封装Request -> 爬虫中间件 -> 引擎 -> 调度器(Scheduler): 缓存请求, 请求去重调度器 -> 请求 -> 引擎 -> 经过下载器中间件 -> 下载器(发送请求, 获取响应数据, 封装Response) 下载器 – Response(响应) -> 经过下载…

2023年4月10日
000
转爬虫与反爬虫套路

爬虫需谨慎，你不知道的爬虫与反爬虫套路！面试的时候，因为双方爬虫理念或者反爬虫理念不同，也很可能互不认可，影响自己的求职之路。本来程序员就有“文人相轻”的倾向，何况理念真的大不同。 2018-01-29 09:28 9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维！爬虫与反爬虫，是一个很不阳光的行业。这里说的不阳光，有两个…

爬虫 2023年4月12日
000
golang 并发爬虫

之前的一篇文章中展示了一个使用 python 和 aiohttp 搭建的并发爬虫,这篇文章使用 golang 实现同样的功能,旨在理解 python async 异步和 golang 异步编程之间的差别. 代码 package main import ( json “encoding/json” “fmt” ioutil “io/ioutil” “net/h…

爬虫 2023年4月10日
000
Python基于pandas爬取网页表格数据

Python是一种流行的编程语言，pandas是Python中常用的数据处理库，可以方便地进行数据分析、清洗和处理等操作。本文将具体讲解如何使用Python和pandas来爬取网页表格数据。准备工作在使用Python和pandas进行网页表格数据爬取之前，需要先安装所需的相关库。可以使用以下命令来安装： pip install pandas pip in…

python 2023年5月14日
000

合作推广

合作推广

返回顶部