首页 > 编程语言 >java html串转换成文本串

java html串转换成文本串

时间:2022-11-19 21:10:10浏览次数:34  
标签:03 java String visitor html return 文本 margin

采用htmlparser 来解决将html串中抽取出文本串。


String str = "<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">" +
"<HTML><HEAD>" +
"<META http-equiv=Content-Type content=\"text/html; charset=gb2312\">" +
"<META content=\"MSHTML 6.00.6000.17095\" name=GENERATOR><LINK " +
"href=\"BLOCKQUOTE{margin-Top: 0px; margin-Bottom: 0px; margin-Left: 2em}\"" +
"rel=stylesheet></HEAD>" +
"<BODY style=\"FONT-SIZE: 10pt; MARGIN: 10px; FONT-FAMILY: verdana\">" +
"<DIV><FONT face=Verdana size=2>helll,测试邮件</FONT></DIV>" +
"<DIV><FONT face=Verdana size=2></FONT> </DIV>" +
"<DIV align=left><FONT face=Verdana color=#c0c0c0 size=2>2011-03-03 " +
"</FONT></DIV><FONT face=Verdana size=2>"+
"<HR style=\"WIDTH: 122px; HEIGHT: 2px\" align=left SIZE=2>"+

"<DIV><FONT face=Verdana color=#c0c0c0 size=2><SPAN>shopeye7</SPAN> " +
"</FONT></DIV></FONT></BODY></HTML>" ;

System.out.println(StringUtil.html2Str(str));

效果:
helll,测试邮件 2011-03-03 shopeye7


方法:
/**
* @param html
* @return
*/
public static String html2Str(String html) {
try {
html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}

标签:03,java,String,visitor,html,return,文本,margin
From: https://blog.51cto.com/u_15458282/5870593

相关文章

  • java 序列化 浅克隆 深克隆
    序列化Java序列化技术可以使你将一个对象的状态写入一个Byte流里,并且可以从其它地方把该Byte流里的数据读出来,重新构造一个相同的对象。当两......
  • java与Access 数据库连接访问表 例子
    Java与数据库的连接对于一些中大型的主流数据库而言,一般数据库厂商都提供了专门的JDBC驱动.但对于部分小型数据库而言经常没有专门的JDBC数据库连接......
  • 大佬们,这个是一段一段提取出来的,我该怎么把它组成一个整文本?
    大家好,我是皮皮。一、前言前几天在Python白银交流群【微凉】问了一个Python文本处理的问题,提问截图如下:代码截图如下所示:二、实现过程这里【eric】给了一个指导,使用......
  • Java的内部类
    java内部类内部类的定义在一个类的内部再定义一个完整的类特点编译后可以生成独立的字节码文件内部类可以访问外部类的私有成员,而不破坏封装性可为外部类提供必要的......
  • java poi 读取.doc审阅 修订 最终状态 问题
    一、前景    在使用javapoi读取.doc文件,遇到审阅修订功能时,poi不能读取修定状态为“最终状态”的数据,而是读取了所有修定内容,如下图所示:文本读取内容:正确内......
  • Java新特性(2):Java 10以后
    您好,我是湘王,这是我的51CTO博客,欢迎您来,欢迎您再来~虽然到目前为止Java的版本更新还没有什么惊天动地的改变,但总是会冒出一些有趣的小玩意。前面列举了Java9和Java10的一些特......
  • java 正则表达式讲解
    比如:判断字符串中不能含有“,:*”三个字符java写法:Stringstr="*aaa";Stringregex="^.*[,:*].*$";booleanb=str.matches(regex);=====......
  • java+selenium+testNg运行自动化程序报错
    报错内容:解决方法:降低testng的版本,我用的是7.1.0版本运行就能成功......
  • java——集合——Map集合——Map常用子类
                                         Map常用子类java.util.HashMap集合implem......
  • JavaWeb学习(五)学号自增设计起始值、优化链接为按钮
    一、NavicatPremium12设置主键自增、起始值  二、优化链接为按钮 <inputtype="button"value="学生"onclick="location.href='S_Deng_lu.jsp'"/> ......