java html串转换成文本串

时间：2022-11-19 21:10:10浏览次数：43

标签：03 java String visitor html return 文本 margin

采用htmlparser 来解决将html串中抽取出文本串。

String str = "<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">" +
"<HTML><HEAD>" +
"<META http-equiv=Content-Type content=\"text/html; charset=gb2312\">" +
"<META content=\"MSHTML 6.00.6000.17095\" name=GENERATOR><LINK " +
"href=\"BLOCKQUOTE{margin-Top: 0px; margin-Bottom: 0px; margin-Left: 2em}\"" +
"rel=stylesheet></HEAD>" +
"<BODY style=\"FONT-SIZE: 10pt; MARGIN: 10px; FONT-FAMILY: verdana\">" +
"<DIV><FONT face=Verdana size=2>helll，测试邮件</FONT></DIV>" +
"<DIV><FONT face=Verdana size=2></FONT> </DIV>" +
"<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2011-03-03 " +
"</FONT></DIV><FONT face=Verdana size=2>"+
"<HR style=\"WIDTH: 122px; HEIGHT: 2px\" align=left SIZE=2>"+

"<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>shopeye7</SPAN> " +
"</FONT></DIV></FONT></BODY></HTML>" ;

System.out.println(StringUtil.html2Str(str));

效果：
helll，测试邮件 2011-03-03 shopeye7

方法：
/**
* @param html
* @return
*/
public static String html2Str(String html) {
try {
html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}

标签：03,java,String,visitor,html,return,文本,margin
From： https://blog.51cto.com/u_15458282/5870593

java 序列化浅克隆深克隆
序列化Java序列化技术可以使你将一个对象的状态写入一个Byte流里，并且可以从其它地方把该Byte流里的数据读出来，重新构造一个相同的对象。当两......
java与Access 数据库连接访问表例子
Java与数据库的连接对于一些中大型的主流数据库而言,一般数据库厂商都提供了专门的JDBC驱动.但对于部分小型数据库而言经常没有专门的JDBC数据库连接......
大佬们，这个是一段一段提取出来的，我该怎么把它组成一个整文本？
大家好，我是皮皮。一、前言前几天在Python白银交流群【微凉】问了一个Python文本处理的问题，提问截图如下：代码截图如下所示：二、实现过程这里【eric】给了一个指导，使用......
Java的内部类
java内部类内部类的定义在一个类的内部再定义一个完整的类特点编译后可以生成独立的字节码文件内部类可以访问外部类的私有成员，而不破坏封装性可为外部类提供必要的......
java poi 读取.doc审阅修订最终状态问题
一、前景在使用javapoi读取.doc文件，遇到审阅修订功能时，poi不能读取修定状态为“最终状态”的数据，而是读取了所有修定内容，如下图所示：文本读取内容：正确内......
Java新特性（2）：Java 10以后
您好，我是湘王，这是我的51CTO博客，欢迎您来，欢迎您再来～虽然到目前为止Java的版本更新还没有什么惊天动地的改变，但总是会冒出一些有趣的小玩意。前面列举了Java9和Java10的一些特......
java 正则表达式讲解
比如：判断字符串中不能含有“,:*”三个字符java写法：Stringstr="*aaa";Stringregex="^.*[,:*].*$";booleanb=str.matches(regex);=====......
java+selenium+testNg运行自动化程序报错
报错内容：解决方法：降低testng的版本，我用的是7.1.0版本运行就能成功......
java——集合——Map集合——Map常用子类
Map常用子类java.util.HashMap集合implem......
JavaWeb学习（五）学号自增设计起始值、优化链接为按钮
一、NavicatPremium12设置主键自增、起始值二、优化链接为按钮 <inputtype="button"value="学生"onclick="location.href='S_Deng_lu.jsp'"/> ......

java html串转换成文本串

相关文章

赞助商

阅读排行