Python爬虫实战（二）

2023年4月13日上午12:08 • 爬虫

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧，

 1 #!/usr/bin/env python
 2 # -*- coding:utf-8 -*-
 3 __author__ = 'ziv·chan'
 4 
 5 
 6 import requests
 7 import re
 8 
 9 url = 'http://tieba.baidu.com/p/3138733512?see_lz=1&pn=3'
10 html = requests.get(url)
11 html.encoding = 'utf-8'
12 pageCode = html.text
13 
14 pattern = re.compile('d_post_content j_d_post_content ">(.*?)</div><br>',re.S)
15 items = re.findall(pattern,pageCode)
16 i = 1
17 for item in items:
18     hasImg = re.search('<img',item)
19     hasHref = re.search('href',item)
20     # 过滤img
21     if hasImg:
22         pattern_1 = re.compile('<img class="BDE_Image".*?<br><br>')
23         item = re.sub(pattern_1,'',item)
24     # 过滤href
25     if hasHref:
26         pattern_2 = re.compile('onclick="Stats.sendRequest.*?class="at">(.*?)</a>',re.S)
27         item = re.findall(pattern_2,item)
28 
29     print str(i) + ':'
30     # 提取href标签下的用户
31     if type(item) is list:
32         for each in item:
33             print each
34     else:
35         # 过滤多余标签 ' <br> '
36         pattern_Br = re.compile('<br>')
37         item = re.sub(pattern_Br, '\n', item)
38         # 默认删除空白符
39         print item.strip()
40     print '\n'
41     i += 1
42     # if not hasImg and not hasHref:
43     #     print i
44     #     print item.strip()
45     #     i += 1

本来都以为大功告成了，结果..结果在提取含有@的content的时候，不是少这个就是缺那个...心塞，正则的功夫还是没下够，但是今天白天学得那些方法还是现学现用了，Get！

明天看看静觅怎么做的，又是一顿大餐，好好消化，加油！！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫实战（二） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python爬虫实战（一）

上一篇 2023年4月13日

python 学习之爬虫练习

下一篇 2023年4月13日

Python3爬虫学习之将爬取的信息保存到本地的方法详解

Python3爬虫学习之将爬取的信息保存到本地的方法详解在进行网页数据的爬取时，我们常常需要将爬取到的信息保存到本地文件中。本文将详细讲解在Python3中，如何将爬取到的数据保存到本地文件中的几种方法。方法一：使用open函数 Python3可以使用内置的open函数打开/创建文件，并且通过write方法将获取到的数据写入文件中。下面是一个示例代码： …

python 2023年5月14日
000
python 黑板课爬虫闯关-第五关

参考链接https://www.bbsmax.com/A/o75NvDYX5W/ 用到的tesserocr模块，安装过程可以参考我之前发的随笔或者网上自行搜索，识别率很低只能多试几次，我也没去研究如何提高识别率，用到再说了。 import re,requests,time,os from lxml import html etree=html.etree i…

爬虫 2023年4月8日
000
Python爬虫实战之使用Scrapy爬取豆瓣图片

下面我将为您详细讲解“Python爬虫实战之使用Scrapy爬取豆瓣图片”的完整攻略，包括如何使用Scrapy在豆瓣网站上爬取图片。 Scrapy爬虫实战：使用Scrapy爬取豆瓣图片本次爬虫实战使用的主要工具是Scrapy框架，Scrapy是一个用于爬取网站数据的高级Python框架，它使用了Twisted异步网络框架来处理网络通讯，在性能上有着不错的表…

python 2023年5月14日
000
python | 爬虫笔记（七）- 动态渲染页面抓取Selenium

JavaScript 动态渲染的页面不止 Ajax 这一种另外有的ajax渲染接口含有很多加密参数，难以直接找出其规律通过模拟浏览器运行的方式来实现，Selenium、Splash、PyV8、Ghost 等 7.1 Selenium的使用自动化测试工具，支持多种浏览器。爬虫中主要用来解决js渲染问题用 Selenium 来驱动浏览器加载网页的话，可以…

爬虫 2023年4月8日
000
Python爬虫学习笔记7：动态渲染页面爬取

参考：Python3网络爬虫开发实战问题：Ajax 是javascript动态渲染页面的一种情形，可以通过分析Ajax，然后借用requests和urllib来实现数据爬取。不过Javascript动态渲染的页面不止这一种。比如中国青年网(详见 http://news.youth.cn/gn/), 它的分页部分是由 JavaScript生成的，并非原…

爬虫 2023年4月10日
000
一些常用的Python爬虫技巧汇总

一些常用的Python爬虫技巧汇总本文汇总了一些常用的Python爬虫技巧，包含多线程、代理、浏览器模拟、反反爬虫等内容。多线程多线程是爬虫中常用的技巧之一，可以加快数据抓取的速度。在Python中创建多线程的方法很多，可以使用thread、threading、queue等模块来实现。其中，threading模块是使用最广泛的。以下是一个简单的多线…

python 2023年5月14日
000
【GUI开发案例】用python爬百度搜索结果，并开发成exe桌面软件！

用python爬虫技术，爬取百度搜索结果数据，包含字段：页码、标题、百度链接、真实链接、简介、网站名称。并把源码封装成exe文件，方便没有python环境，或者不懂技术的人使用它。一、背景介绍你好，我是 @马哥python说，一名10年程序猿。 1.1 老版本之前我开发过一个百度搜索的python爬虫代码，具体如下：【python爬虫案例】用pyth…

爬虫 2023年4月12日
000
2017.07.26 Python网络爬虫之Scrapy爬虫实战之今日影视

1.创建项目：前提是在环境变量中添加了: 可以运行命令scrapy：（1）.scrapy startproject todayMovie （2）.scrapy genspider wuHanMovieSpider jycinema.com（搜索域）创建scrapy项目后的文件目录结构是： 2.Scrapy文件介绍： scra…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部