python爬虫的一些小小问题、python动态正则表达式

2023年4月13日下午7:54 • 爬虫

1.首先urllib不能用了，需要引入的是urllib2，正则re。

#coding=utf-8
# import urllib
import urllib2
import re

def getHtml(url):
    page = urllib2.urlopen(url)
    html = page.read()
    return html



def getCountry(html):
    reg = r'<td>(.*?)</td>'
    #imgre = re.compile(reg)#编译会出错，不要再编译了。
    imglist = re.findall(reg, html, re.S|re.M)
    #re.S|re.M   'i'、'L'、'm'、's'、'u'、'x'里的一个或多个字母。
    # 表达式不匹配任何字符，但是指定相应的标志：re.I(忽略大小写)、re.L(依赖locale)、re.M(多行模式)、re.S(.匹配所有字符)、re.U(依赖Unicode)、re.X(详细模式)。
    return imglist

html = getHtml("https://en.wikipedia.org/wiki/List_of_countries_by_electricity_consumption")
print getCountry(html)

要注意一下注释里面的内容。

2.python动态正则表达式写法：

import re
f = open("b.txt")
ll = f.read(1000000)
print ll
for i in range(1,220):
    reg = "'"+ str(i) + "'" + '(.*?)'+ "'"+str(i+1)+"'"#这里可以实现动态匹配
    reg2 = re.compile(r''+reg+'')#每次编译的正则表达式都不一样
    list = re.findall(reg2,ll)
    # print i,reg
    print list

注意看写法。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫的一些小小问题、python动态正则表达式 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

网络爬虫之HTTPClient

上一篇 2023年4月13日

python爬虫实战–抖音

下一篇 2023年4月13日

爬虫入门urlib,urlib2的基本使用和进阶

python2中的urlib和urlib2 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HT…

爬虫 2023年4月11日
000
基于python爬虫数据处理(详解)

基于Python爬虫数据处理本攻略介绍如何使用Python爬虫来获取数据，并使用Python进行数据处理和分析。一、爬虫数据获取 Python中有很多爬虫库可供选择，本攻略使用的是requests和BeautifulSoup库。requests用于获取网页源代码，而BeautifulSoup则用于解析源代码，提取需要的数据。以下是一个简单的示例代码，获…

python 2023年5月14日
000
爬虫学习笔记：微信公众号文章图片下载

一、背景知识最近看微信公众号，发现很多有趣的图片，又不想一一保存，遂产生通过 python 爬虫的方式直接一次性解析保存。在此过程中，使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库，算是综合使用了一下。有所收获。二、整体思路分析网页源代码获取图片的 URL 根据 URL 保存下载根据图片分辨率…

爬虫 2023年4月13日
000
requests_html爬虫小练习

爬取豆瓣TOP250 from requests_html import HTMLSession #新建一个html文件，将相应的代码放入，运行查看结果，如果页面全部渲染则直接根据页面信息获得数据； #如果指定部分没有代码，则是通过ajax提交渲染的结果，需要通过控制台找到指定的后台接口 #session=HTMLSession() # r=session.…

爬虫 2023年4月12日
000
爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析

　　　　仔细看的话，会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP，不过，这个坑太大，小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传，今天刚了解到boson公司有python关于自然语言处理的API，于是试着用了一下，官方文档很不错，简单明了。首先是pip install bosonnlp。下面是一些简单应用，其实就…

爬虫 2023年4月10日
000
零基础写python爬虫之抓取糗事百科代码分享

首先介绍一下什么是Python爬虫。Python爬虫是一种利用Python编程语言进行网络爬取的技术。简单来说，就是自动化地从互联网上抓取网络信息。而抓取糗事百科就可以作为一个练手的例子。准备工作在写爬虫之前，你需要做好一些准备工作：安装Python环境：在官网下载安装包后，进行安装。建议选择3.7及以上版本。安装相关库：Python中已经有了许多库…

python 2023年5月14日
000
如何处理代理IP失效的问题？

代理IP失效是爬虫开发中常见的问题之一，下面是处理代理IP失效的完整攻略： 1.确定代理IP失效的原因在处理代理IP失效的问题前，先需要确定代理IP失效的原因。常见的代理IP失效原因包括以下几点：代理IP被封禁了代理IP质量不好网络不稳定或代理服务器不稳定频繁更换代理IP导致接口受到限制确定了代理IP失效的原因，就可以有针对性地采取相应的处理措施…

爬虫 2023年4月20日
000
python爬虫之爬取笔趣阁小说

下面是详细的攻略： python爬虫之爬取笔趣阁小说 1. 确定目标首先需要确定我们要爬取的笔趣阁小说的目标页面。以《盗墓笔记》为例，我们可以选择访问其页面：http://www.biquge.info/10_10945/ 2. 分析页面我们需要通过浏览器的开发者工具对页面进行分析，找到小说的章节列表。可以看到章节列表位于id为list的div元素内部，…

python 2023年5月14日
000

合作推广

合作推广

返回顶部