Python正则表达式反对Latin-1字符编码？

2023年4月6日上午12:00 • Python开发

【问题标题】：Python regex against Latin-1 character encoding?Python正则表达式反对Latin-1字符编码？
【发布时间】：2023-04-05 02:08:02
【问题描述】：

我有一个包含（我相信）latin-1 编码的文件。

但是，我无法将正则表达式与此文件匹配。

如果我 cat 文件，它看起来很好：

但是，我找不到字符串：

In [12]: txt = open("b").read()

In [13]: print txt
  <Vw_IncidentPipeline_Report>


In [14]: txt
Out[14]: '\x00 \x00 \x00<\x00V\x00w\x00_\x00I\x00n\x00c\x00i\x00d\x00e\x00n\x00t\x00P\x00i\x00p\x00e\x00l\x00i\x00n\x00e\x00_\x00R\x00e\x00p\x00o\x00r\x00t\x00>\x00\r\x00\n'

In [22]: txt.find("Vw_IncidentPipeline_Report")
Out[22]: -1

In [23]: txt.decode("latin-1")
Out[23]: u'\x00 \x00 \x00<\x00V\x00w\x00_\x00I\x00n\x00c\x00i\x00d\x00e\x00n\x00t\x00P\x00i\x00p\x00e\x00l\x00i\x00n\x00e\x00_\x00R\x00e\x00p\x00o\x00r\x00t\x00>\x00\r\x00\n'

In [25]: txt.decode("utf-16le")
Out[25]: u'\u2000\u2000\u3c00\u5600\u7700\u5f00\u4900\u6e00\u6300\u6900\u6400\u6500\u6e00\u7400\u5000\u6900\u7000\u6500\u6c00\u6900\u6e00\u6500\u5f00\u5200\u6500\u7000\u6f00\u7200\u7400\u3e00\u0d00\u0a00'

如何成功解码字符串，以便在其中找到字符串？

【问题讨论】：

文件开头是否有字节序标记（'\xff\xfe'或'\xfe\xff'）？
除非 OP 编辑了上述脚本，否则文件显然是尖叫的 (a) 以 UTF-16BE 编码 (b) 开头没有 BOM。

标签：
python
encoding
utf-8
character-encoding

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python正则表达式反对Latin-1字符编码？ - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

使用 python 检索 MusicBrainz 指纹

上一篇 2023年4月6日

从 Pycharm Python 控制台写入远程 X 服务器时不显示任何内容

下一篇 2023年4月6日

python版百度语音识别功能

让我来详细讲解一下“python版百度语音识别功能”的完整攻略。一、背景介绍百度语音识别是一款基于百度云平台的语音识别API，目前已经支持多种语言和方言的语音输入，同时具有较强的语音处理能力和识别准确率。Python版百度语音识别功能则是通过Python语言编写的程序接口，可以快速实现语音识别功能的开发和调用。二、实现步骤 1. 注册百度云平台账号在…

python 2023年5月19日
000
python利用多线程+队列技术爬取中介网互联网网站排行榜

Python利用多线程+队列技术爬取中介网互联网网站排行榜本文将详细讲解如何使用Python的多线程和队列技术爬取中介网互联网网站排行榜。我们将使用requests和BeautifulSoup库来获取和解析网页内容，使用多线程和队列技术来提高爬取效率。爬取网页内容首先，我们需要使用requests库来获取网页内容。以下是一个获取网页内容的示例： imp…

python 2023年5月15日
000
如何利用python正确地为图像添加高斯噪声

当我们处理图像时，我们经常需要添加噪声以模拟真实世界通信的不确定性。高斯噪声是一种常见的噪声类型，它遵循高斯分布。Python中有许多库可以帮助我们添加噪声。在本文中，我们将使用numpy和OpenCV库来生成高斯噪声和在图像上应用它。 1. 生成高斯噪声为了生成高斯噪声，我们将使用numpy的random.normal函数。该函数接受均值、标准差和sha…

python 2023年6月3日
000
Python爬取雪中悍刀行弹幕分析并可视化详程

下面是“Python爬取雪中悍刀行弹幕分析并可视化详程”的完整攻略。 1. 网页爬取我们可以使用Python中的requests库来下载网页源代码，并使用beautifulsoup库来解析网页。 import requests from bs4 import BeautifulSoup url = ‘https://www.bilibili.com/vid…

python 2023年5月20日
000
python plt.plot bar 如何设置绘图尺寸大小

要设置Python Matplotlib库中plt.plot绘图的尺寸大小，我们要使用plt.subplots()函数并在其中设置figsize参数。figsize参数由两个值组成，即宽度和高度，单位为英寸。下面是一个简单的示例代码： import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [10, 2…

python 2023年5月18日
000
numpy给array增加维度np.newaxis的实例

首先，需要了解numpy中多维数组的概念。在numpy中，多维数组也被称为ndarray，它是一种类似于数组的数据结构，但是可以支持多维数组，其中每个元素都必须是同类型。 numpy为了方便处理多维数组，提供了一些函数和属性来处理多维数组。其中，np.newaxis是一个非常有用的属性，可以在数组的指定位置增加一维。具体来说，当我们使用np.newaxis…

python 2023年6月6日
000
深入理解Python爬虫代理池服务

Python爬虫代理池服务是爬虫开发中常用的技术，可以帮助我们解决IP被封锁、访问速度慢等问题。本文将详细讲解Python爬虫代理池服务的实现过程，包括如何获取代理IP、如何测试代理IP、如何使用代理IP等。获取代理IP 要获取代理IP，我们可以使用一些免费或付费的代理IP服务。以下是一个示例，演示如何使用免费的代理IP服务获取代理IP： import r…

python 2023年5月15日
000
Python3.8 + Tkinter: Button设置image属性不显示的问题及解决方法

接下来我将详细讲解“Python3.8 + Tkinter: Button设置image属性不显示的问题及解决方法”的完整攻略。问题描述在Python3.8 + Tkinter下，按钮(Button)组件设置image属性时，有时会出现图片不显示的情况。这可能会导致用户无法正确识别按钮的功能，影响用户体验。原因分析这种情况发生的原因在于，Python…

python 2023年6月13日
000

合作推广

合作推广

返回顶部