【问题标题】:VERY BAD XML trying to parse with Python非常糟糕的 XML 试图用 Python 解析
【发布时间】:2023-04-01 02:08:01
【问题描述】:

我在购买域名后尝试使用 python 解析 xml 输出。到目前为止,我有:

#!/usr/bin/python

import sys
from BeautifulSoup import BeautifulSoup, BeautifulStoneSoup

file = sys.argv[1]
xml = open(file).read()
soup = BeautifulStoneSoup(xml)
response = soup.find('ApiResponse')

print response

我正在使用的 XML 输出格式非常错误,肯定需要清理。

ok: [162.243.95.241] => {"cache_control": "private", "changed": false, "content": "<?xml version=\"1.0\" encoding=\"utf-8\"?>\r\n<ApiResponse Status=\"OK\" xmlns=\"http://api.namecheap.com/xml.response\">\r\n  <Errors />\r\n  <Warnings />\r\n  <RequestedCommand>namecheap.domains.create</RequestedCommand>\r\n  <CommandResponse Type=\"namecheap.domains.create\">\r\n    <DomainCreateResult Domain=\"123er321test.com\" Registered=\"true\" ChargedAmount=\"8.1800\" DomainID=\"33404\" OrderID=\"414562\" TransactionID=\"679462\" WhoisguardEnable=\"false\" FreePositiveSSL=\"false\" NonRealTimeDomain=\"false\" />\r\n  </CommandResponse>\r\n  <Server>WEB1-SANDBOX1</Server>\r\n  <GMTTimeDifference>--5:00</GMTTimeDifference>\r\n  <ExecutionTime>9.008</ExecutionTime>\r\n</ApiResponse>", "content_length": "647", "content_location": "https://api.sandbox.namecheap.com/xml.response", "content_type": "text/xml; charset=utf-8", "date": "Thu, 21 Nov 2013 03:23:51 GMT", "item": "", "redirected": false, "server": "Microsoft-IIS/7.0", "status": 200, "x_aspnet_version": "4.0.30319", "x_powered_by": "ASP.NET"}

这里又是pastebin 上的“xml”。

我正在尝试查找ApiResponse Status,即ERROROK

【问题讨论】:

  • '=>' 之后的所有内容都是 JSON,尝试使用 JSON 解析器提取 xml 属性,然后您需要 XML 解析器来破解它。
  • 这还是this question吗? - 如果是这样,没有必要有两个问题要求相同的事情......
  • 我想明白这一点后,我打算自己回答这个问题,因为我意识到我需要做的是编写一个 Ansible 模块,这就是我提出这个问题的原因。

标签:
python
xml
beautifulsoup