admin 管理员组

文章数量: 1184232


2024年4月19日发(作者:如何用爬虫捕获弹出的页面)

1. 用XMLSpy工具进行XPath解析

(1) 安装XMLSpy工具。

(2) 打开要抓取Xpath的html页面,在本样例中为

localhost:8080/,保存源文件txt文件到本地路径,如c:

(3) 编写Java类,,转换为xml(参考样例程序demoHtmlXml)

(4) 使用XmlSpy工具打开转换生成的xml

(5) 搜索要定位xml的内容,如本样例中查找国内新闻,在html中能看到新闻内容

如:国务院:今年将适当提高医保最高支付限额

搜索“国务院”

(6) 查找结果定位后,点击表格标签,则包含此内容的表格被定位

(7) 右键被定位表格所在元素,如本例中为,选择复制XPath

(8) 点击XML菜单中的求XPath值,将复制的XPath粘贴到文本框中

/html/body/div/div/div/ul/li/a

(9) 若结果比预计的多,按照表格中的div顺序分析xpath,得出最终结果

/html/body/div[7]/div[1]/div/ul/li/a

(10) 文本XPath为/html/body/div[7]/div[1]/div/ul/li/a/text()

(11) 超链接XPath为/html/body/div[7]/div[1]/div/ul/li/a/@href

其他XPath语法请查阅XPath相关教程


本文标签: 定位 表格 工具 内容