最近遇到一个需要,是要提取 speedo 商品的商品描述,无奈这个字段是一段 html 的 string,咨询架构师之后,决定使用 jsoup 做 html 内容提取,特此记录。
Step 1:
maven 导入 jsoup
1 2 3 4 5 6 7
| <version.jsoup>1.7.3</version.jsoup>
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>${version.jsoup}</version> </dependency>
|
Step 2:
使用 select 取值
1 2 3 4 5 6 7 8 9 10 11 12 13
| public void getInnerHtmlValueByClassNameAngTagName() throws Exception{ String fileStr = readFileJava8("D:/htmlContent.txt"); Document document = Jsoup.parse(fileStr, "UTF-8"); Elements elements = document.select(".description-text h2"); logger.info(elements.text());
elements = document.select(".text-a p"); logger.info(elements.text());
elements = document.select(".text-a span"); logger.info(elements.text()); }
|
jsoup 详解请移步 http://www.open-open.com/jsoup/parsing-a-document.htm
project github url : https://github.com/Knight-JNXU/OpenSourcePackage/tree/OpenSourcePackageUsage