【第九节】python中xml解析和json编解码

1. **SAX（Simple API for XML）**：
   - SAX是一种基于事件驱动的解析方式。
   - 在解析XML时，SAX会逐行读取文件，并在识别出特定元素时触发相应的事件。
   - 这种方法不需要将整个XML文档加载到内存中，因此适用于处理大型XML文件。
   - 由于SAX是只读的，它不支持对XML文档的修改。

2. **DOM（Document Object Model）**：
   - DOM解析器会将整个XML文档加载到内存中，并构建一个树状结构的对象模型。
   - 这使得用户可以随机访问树中的任何节点，进行查询、修改、删除或添加操作。
   - 然而，DOM方法在处理大型XML文件时可能会消耗大量内存。

3. **ElementTree**：
   - ElementTree提供了一种轻量级、高效且易于使用的方式来解析和处理XML。
   - 它将XML数据表示为一个树状结构，类似于DOM，但更加简洁和高效。
   - ElementTree支持对XML文档的读取和写入操作，适用于中等大小的XML文件。

选择哪种解析方法取决于具体需求，例如文件大小、内存限制、是否需要修改XML内容等因素。对于大型文件，SAX可能是更合适的选择；而对于需要频繁修改的中小型文件，ElementTree或DOM可能更为适宜。

1.3 SAX解析xml

Python中使用SAX解析XML文档时，涉及到两个核心组件：解析器和事件处理器。

SAX解析器负责逐行读取XML文档，并在识别出特定元素时向事件处理器发送相应的事件，例如元素的开始和结束。

事件处理器则负责响应这些事件，对传递过来的XML数据进行处理。

SAX解析方式特别适用于以下场景：
1). 处理大型XML文件；
2). 仅需获取文件的部分内容或特定信息；
3). 需要构建自定义对象模型的情况。

在Python中，使用SAX解析XML需要先导入`xml.sax`模块中的`parse`函数，以及`xml.sax.handler`模块中的`ContentHandler`类。

`ContentHandler`类包含多个方法，用于处理不同类型的XML事件：

- `characters(content)`方法：在遇到字符数据时被调用，`content`参数包含这些字符串。
- `startDocument()`方法：在文档开始时被调用。
- `endDocument()`方法：在文档结束时被调用。
- `startElement(name, attrs)`方法：在遇到XML开始标签时被调用，`name`是标签名，`attrs`是属性值的字典。
- `endElement(name)`方法：在遇到XML结束标签时被调用。

此外，`xml.sax`模块还提供了以下方法：

- `make_parser()`方法：创建并返回一个新的解析器对象。
- `parse(xmlfile, contenthandler[, errorhandler])`方法：创建一个SAX解析器并解析指定的XML文件。
- `parseString(xmlstring, contenthandler[, errorhandler])`方法：创建一个XML解析器并解析指定的XML字符串。

这些方法和类构成了Python中使用SAX解析XML的基础框架，开发者可以根据具体需求重写`ContentHandler`类中的方法，以实现对XML数据的定制化处理。

我们实验使用到的 XML 实例文件 movies.xml 内容如下：

<collection shelf="New Arrivals">
<movie title="Enemy Behind">
   <type>War, Thriller</type>
   <format>DVD</format>
   <year>2003</year>
   <rating>PG</rating>
   <stars>10</stars>
   <description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
   <type>Anime, Science Fiction</type>
   <format>DVD</format>
   <year>1989</year>
   <rating>R</rating>
   <stars>8</stars>
   <description>A schientific fiction</description>
</movie>
   <movie title="Trigun">
   <type>Anime, Action</type>
   <format>DVD</format>
   <episodes>4</episodes>
   <rating>PG</rating>
   <stars>10</stars>
   <description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
   <type>Comedy</type>
   <format>VHS</format>
   <rating>PG</rating>
   <stars>2</stars>
   <description>Viewable boredom</description>
</movie>
</collection>

解析上面xml的python代码如下：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import xml.sax
 
class MovieHandler( xml.sax.ContentHandler ):
   def __init__(self):
      self.CurrentData = ""
      self.type = ""
      self.format = ""
      self.year = ""
      self.rating = ""
      self.stars = ""
      self.description = ""
 
   # 元素开始事件处理
   def startElement(self, tag, attributes):
      self.CurrentData = tag
      if tag == "movie":
         print "*****Movie*****"
         title = attributes["title"]
         print "Title:", title
 
   # 元素结束事件处理
   def endElement(self, tag):
      if self.CurrentData == "type":
         print "Type:", self.type
      elif self.CurrentData == "format":
         print "Format:", self.format
      elif self.CurrentData == "year":
         print "Year:", self.year
      elif self.CurrentData == "rating":
         print "Rating:", self.rating
      elif self.CurrentData == "stars":
         print "Stars:", self.stars
      elif self.CurrentData == "description":
         print "Description:", self.description
      self.CurrentData = ""
 
   # 内容事件处理
   def characters(self, content):
      if self.CurrentData == "type":
         self.type = content
      elif self.CurrentData == "format":
         self.format = content
      elif self.CurrentData == "year":
         self.year = content
      elif self.CurrentData == "rating":
         self.rating = content
      elif self.CurrentData == "stars":
         self.stars = content
      elif self.CurrentData == "description":
         self.description = content
  
if ( __name__ == "__main__"):
   
   # 创建一个 XMLReader
   parser = xml.sax.make_parser()
   # turn off namepsaces
   parser.setFeature(xml.sax.handler.feature_namespaces, 0)
 
   # 重写 ContextHandler
   Handler = MovieHandler()
   parser.setContentHandler( Handler )
   
   parser.parse("movies.xml")

代码执行结果如下：

*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom

1.4 xml.dom解析xml

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。

python中用xml.dom.minidom来解析xml文件，实例如下：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
from xml.dom.minidom import parse
import xml.dom.minidom
 
# 使用minidom解析器打开 XML 文档
DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
   print "Root element : %s" % collection.getAttribute("shelf")
 
# 在集合中获取所有电影
movies = collection.getElementsByTagName("movie")
 
# 打印每部电影的详细信息
for movie in movies:
   print "*****Movie*****"
   if movie.hasAttribute("title"):
      print "Title: %s" % movie.getAttribute("title")
 
   type = movie.getElementsByTagName('type')[0]
   print "Type: %s" % type.childNodes[0].data
   format = movie.getElementsByTagName('format')[0]
   print "Format: %s" % format.childNodes[0].data
   rating = movie.getElementsByTagName('rating')[0]
   print "Rating: %s" % rating.childNodes[0].data
   description = movie.getElementsByTagName('description')[0]
   print "Description: %s" % description.childNodes[0].data

执行结果如下：

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom

1.6 ElementTree解析XML

import xml.etree.ElementTree as ET

# 解析XML文件
tree = ET.parse('movies.xml')
root = tree.getroot()

# 遍历所有的movie元素
for movie in root.findall('movie'):
    # 获取movie的属性
    title = movie.get('title')
    # 获取子元素的文本内容
    movie_type = movie.find('type').text
    format = movie.find('format').text
    year = movie.find('year').text if movie.find('year') is not None else 'N/A'
    rating = movie.find('rating').text
    stars = movie.find('stars').text
    description = movie.find('description').text
    
    # 打印信息
    print(f"Title: {title}")
    print(f"Type: {movie_type}")
    print(f"Format: {format}")
    print(f"Year: {year}")
    print(f"Rating: {rating}")
    print(f"Stars: {stars}")
    print(f"Description: {description}")
    print("-" * 40)

二、Python编解码json

2.1 什么是json

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON 是基于 JavaScript 编程语言的一个子集，但它是独立于语言的文本格式，因此可以在多种编程语言中使用。

### JSON 的结构

JSON 数据格式主要由两种结构组成：

1). **键值对集合**：这通常表现为对象（object），在 JSON 中用花括号 `{}` 表示。每个键值对由一个键和一个值组成，键和值之间用冒号 `:` 分隔，每个键值对之间用逗号 `,` 分隔。例如：
   ```json
   {
     "name": "John",
     "age": 30,
     "city": "New York"
   }
   ```

2). **值的有序列表**：这通常表现为数组（array），在 JSON 中用方括号 `[]` 表示。数组中的每个值之间用逗号 `,` 分隔。例如：
   ```json
   [
     "apple",
     "banana",
     "cherry"
   ]
   ```

JSON 支持以下数据类型：
- 字符串（string）
- 数字（number）
- 对象（object）
- 数组（array）
- 布尔值（boolean）
- null

### JSON 的应用

JSON 由于其简洁性和通用性，在现代软件开发中得到了广泛的应用，主要包括以下几个方面：

1). **数据交换**：JSON 常用于不同系统之间的数据交换，特别是在 Web 开发中，前端和后端之间通过 JSON 格式传递数据。

2). **配置文件**：JSON 格式简洁易读，常被用作配置文件的格式，如应用程序的设置文件。

3). **API 响应**：RESTful API 通常使用 JSON 格式返回数据，使得客户端能够轻松解析和处理。

4). **日志记录**：JSON 格式的日志易于解析和查询，因此在日志记录系统中也得到了广泛应用。

5). **存储数据**：虽然 JSON 不是数据库格式，但在某些情况下，它被用于存储结构化数据，尤其是在需要快速读写的场景中。

6). **移动应用**：移动应用开发中，JSON 常用于从服务器获取数据，并在应用中进行展示和处理。

7). **物联网（IoT）**：在物联网设备中，JSON 常用于设备与服务器之间的数据传输。

JSON 的广泛应用得益于其简单、灵活和易于处理的特性，使得它成为现代软件开发中不可或缺的一部分。

2.2 使用json 库

在Python中，处理JSON对象非常简单，因为Python标准库提供了`json`模块，用于编码（序列化）和解码（反序列化）JSON数据。以下是如何使用`json`模块进行JSON编码和解码的示例：

### 编码（序列化）JSON对象

要将Python对象编码为JSON字符串，可以使用`json.dumps()`方法。以下是一个示例：

import json

# 定义一个Python对象
data = {
    "name": "John Doe",
    "age": 30,
    "city": "New York",
    "is_student": False,
    "courses": ["Math", "Science", "History"]
}

# 将Python对象编码为JSON字符串
json_string = json.dumps(data, indent=4)
print(json_string)

在这个示例中，我们定义了一个Python字典`data`，然后使用`json.dumps()`方法将其编码为JSON字符串。`indent=4`参数用于美化输出，使JSON字符串更易读。

python 原始类型向 json 类型的转化对照表：

### 解码（反序列化）JSON对象

要将JSON字符串解码为Python对象，可以使用`json.loads()`方法。以下是一个示例：

import json

# 定义一个JSON字符串
json_string = '''
{
    "name": "John Doe",
    "age": 30,
    "city": "New York",
    "is_student": false,
    "courses": ["Math", "Science", "History"]
}'''

# 将JSON字符串解码为Python对象
data = json.loads(json_string)
print(data)
print(type(data))  # 输出: <class 'dict'>

在这个示例中，我们定义了一个JSON字符串`json_string`，然后使用`json.loads()`方法将其解码为Python字典。

json 类型转换到 python 的类型对照表：

### 处理文件中的JSON数据

如果需要从文件中读取JSON数据或将JSON数据写入文件，可以使用`json.load()`和`json.dump()`方法。以下是一个示例：

import json

# 写入JSON数据到文件
data = {
    "name": "John Doe",
    "age": 30,
    "city": "New York",
    "is_student": False,
    "courses": ["Math", "Science", "History"]
}

with open('data.json', 'w') as file:
    json.dump(data, file, indent=4)

# 从文件中读取JSON数据
with open('data.json', 'r') as file:
    data = json.load(file)
    print(data)

在这个示例中，我们首先使用`json.dump()`方法将Python对象`data`写入名为`data.json`的文件中。然后，使用`json.load()`方法从文件中读取JSON数据并将其解码为Python对象。

通过这些方法，你可以轻松地在Python中处理JSON数据。

2.3 使用第三方库Demjson

`demjson` 是一个第三方 Python 模块，提供了对 JSON 数据的编码和解码功能，并且包含了 JSONLint 的格式化及校验功能。以下是如何使用 `demjson` 模块进行 JSON 编码和解码的详细步骤和示例。

### 安装 `demjson`

首先，你需要安装 `demjson` 模块。你可以从源码安装，也可以使用 `pip` 安装。以下是从源码安装的步骤：

$ tar -xvzf demjson-2.2.3.tar.gz
$ cd demjson-2.2.3
$ python setup.py install

或者使用 `pip` 安装：

$ pip install demjson

### 编码 JSON 数据

`demjson` 的 `encode` 函数用于将 Python 对象编码成 JSON 字符串。

#### 语法

demjson.encode(self, obj, nest_level=0)

#### 示例

以下是一个将 Python 列表编码为 JSON 字符串的示例：

#!/usr/bin/python
import demjson

data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]

json_string = demjson.encode(data)
print(json_string)

输出结果为：

[{"a":1,"b":2,"c":3,"d":4,"e":5}]

### 解码 JSON 数据

`demjson` 的 `decode` 函数用于将 JSON 字符串解码为 Python 对象。

#### 语法

demjson.decode(self, txt)

#### 示例

以下是一个将 JSON 字符串解码为 Python 字典的示例：

#!/usr/bin/python
import demjson

json_string = '{"a":1,"b":2,"c":3,"d":4,"e":5}';

data = demjson.decode(json_string)
print(data)

输出结果为：

{u'a': 1, u'c': 3, u'b': 2, u'e': 5, u'd': 4}

### 总结

`demjson` 模块提供了简单易用的方法来处理 JSON 数据。通过 `encode` 和 `decode` 函数，你可以轻松地在 Python 对象和 JSON 字符串之间进行转换。如果你需要更高级的 JSON 处理功能，`demjson` 可能是一个不错的选择。

标签：xml,编解码,Python,第九节,JSON,XML,json,print,self
From： https://blog.csdn.net/linshantang/article/details/141027473

【第九节】python中xml解析和json编解码

一、Python XML 解析

1.1 什么是XML

1.2 Python 对 XML 的解析方法