浅谈 jsoup

最近遇到一个需要,是要提取 speedo 商品的商品描述,无奈这个字段是一段 html 的 string,咨询架构师之后,决定使用 jsoup 做 html 内容提取,特此记录。

Step 1:

maven 导入 jsoup

1
2
3
4
5
6
7
<version.jsoup>1.7.3</version.jsoup>

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>${version.jsoup}</version>
</dependency>

Step 2:

使用 select 取值

1
2
3
4
5
6
7
8
9
10
11
12
13
public void getInnerHtmlValueByClassNameAngTagName() throws Exception{
String fileStr = readFileJava8("D:/htmlContent.txt");
Document document = Jsoup.parse(fileStr, "UTF-8");
// 获取 父节点class值为 description-text 的 h2 元素
Elements elements = document.select(".description-text h2");
logger.info(elements.text());

elements = document.select(".text-a p");
logger.info(elements.text());

elements = document.select(".text-a span");
logger.info(elements.text());
}

jsoup 详解请移步 http://www.open-open.com/jsoup/parsing-a-document.htm

project github url : https://github.com/Knight-JNXU/OpenSourcePackage/tree/OpenSourcePackageUsage

|