博客
关于我
python开发 (XML)一
阅读量:277 次
发布时间:2019-03-01

本文共 2803 字,大约阅读时间需要 9 分钟。

Python 对 XML 的解析

XML 是一种轻量级的标记语言,广泛应用于数据传输和存储。它通过定义语义标记,将文档结构化管理。对于 Python 开发者而言,解析 XML 是一个常见的任务,而 Python 提供了几种高效的解析接口,包括 SAX、DOM 和 ElementTree。其中,SAX 和 DOM 是最常用的方法。

SAX 解析器

SAX 是一种基于事件驱动的 XML 解析接口。它的核心是解析器和事件处理器的结合。解析器负责读取 XML 文档并触发事件处理器,事件处理器则根据事件类型对 XML 数据进行处理。

SAX 的使用场景

  • 对大型 XML 文件进行处理时,SAX 显示出色。
  • 当只需部分内容或特定信息时,SAX 也能发挥优势。
  • 建立对象模型时,SAX 是理想选择。

在 Python 中,SAX 解析器通过 xml.sax 标准库实现。解析过程中,解析器调用事件处理器的相关方法,处理 XML 事件。

ContentHandler 的方法

ContentHandler 是 SAX 解析器的核心事件处理器接口。以下是其主要方法:

1. characters(content)

  • 在遇到字符内容时调用。
  • 内容可以是文本节点的值,也可以是标签之间或标签末尾的字符。

2. startDocument()

  • 文档开始时调用。

3. endDocument()

  • 文档结束时调用。

4. startElement(name, attrs)

  • 遇到 XML 开始标签时调用。
  • name 是标签名称,attrs 是标签属性值字典。

5. endElement(name)

  • 遇到 XML 结束标签时调用。

创建解析器

通过 xml.sax.make_parser() 创建一个新的 SAX 解析器。可以传递参数来配置解析器行为。

解析方法

使用 xml.sax.parse() 方法来解析文件或字符串。

import xml.saxclass MovieHandler(xml.sax.ContentHandler):    def __init__(self):        self.current_data = ""        self.type = ""        self.format = ""        self.year = ""        self.rating = ""        self.stars = ""        self.description = ""    def start_element(self, tag, attributes):        self.current_data = tag        if tag == "movie":            print("***** Movie *****")            self.title = attributes["title"]            print("Title:", self.title)    def end_element(self, tag):        if self.current_data == "type":            print("Type:", self.type)        elif self.current_data == "format":            print("Format:", self.format)        elif self.current_data == "year":            print("Year:", self.year)        elif self.current_data == "rating":            print("Rating:", self.rating)        elif self.current_data == "stars":            print("Stars:", self.stars)        elif self.current_data == "description":            print("Description:", self.description)        self.current_data = ""    def characters(self, content):        if self.current_data == "type":            self.type = content        elif self.current_data == "format":            self.format = content        elif self.current_data == "year":            self.year = content        elif self.current_data == "rating":            self.rating = content        elif self.current_data == "stars":            self.stars = content        elif self.current_data == "description":            self.description = contentif __name__ == "__main__":    parser = xml.sax.make_parser()    parser.setFeature(xml.sax.handler.FEATURE_NAMESPACES, 0)    handler = MovieHandler()    parser.setContentHandler(handler)    parser.parse("movies.xml")

parseString 方法

parseString 方法用于解析 XML 字符串。

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

错误处理

如果需要处理 XML 解析错误,可以指定 errorhandler 对象。

总结

SAX 解析器是 Python 解析 XML 的理想选择。它通过事件驱动模型,允许开发者灵活处理 XML 数据。通过合理搭配 ContentHandler 和解析器,可以实现对复杂 XML 文档的高效解析。

转载地址:http://yebo.baihongyu.com/

你可能感兴趣的文章
Mysql5.7版本单机版my.cnf配置文件
查看>>
mysql5.7的安装和Navicat的安装
查看>>
mysql5.7示例数据库_Linux MySQL5.7多实例数据库配置
查看>>
Mysql8 数据库安装及主从配置 | Spring Cloud 2
查看>>
mysql8 配置文件配置group 问题 sql语句group不能使用报错解决 mysql8.X版本的my.cnf配置文件 my.cnf文件 能够使用的my.cnf配置文件
查看>>
MySQL8.0.29启动报错Different lower_case_table_names settings for server (‘0‘) and data dictionary (‘1‘)
查看>>
MYSQL8.0以上忘记root密码
查看>>
Mysql8.0以上重置初始密码的方法
查看>>
mysql8.0新特性-自增变量的持久化
查看>>
Mysql8.0注意url变更写法
查看>>
Mysql8.0的特性
查看>>
MySQL8修改密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
查看>>
MySQL8修改密码的方法
查看>>
Mysql8在Centos上安装后忘记root密码如何重新设置
查看>>
Mysql8在Windows上离线安装时忘记root密码
查看>>
MySQL8找不到my.ini配置文件以及报sql_mode=only_full_group_by解决方案
查看>>
mysql8的安装与卸载
查看>>
MySQL8,体验不一样的安装方式!
查看>>
MySQL: Host '127.0.0.1' is not allowed to connect to this MySQL server
查看>>
Mysql: 对换(替换)两条记录的同一个字段值
查看>>