发布于 2016-11-04 22:07:16 | 192 次阅读 | 评论: 0 | 来源: PHPERZ

pyquery默认使用lxml.xml作为解析器,所以如果用户的应用不能使用,则可以尝试用lxml.html进行html解析。xml解析器有时候会有些问题。特别是当处理xhtml页面的时候,因为解析器会触发一个错误当遇到一个没有的xml树时(以 w3c.org为例)。

你也可以选择特定的解析器:

>>> pq('<html><body><p>toto</p></body></html>', parser='xml')
[<html>]
>>> pq('<html><body><p>toto</p></body></html>', parser='html')
[<html>]
>>> pq('<html><body><p>toto</p></body></html>', parser='html_fragments')
[<p>]

html和html_fragments解析器来自lxml.html。

最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务