首页 > 其他分享 >HTMLParser(一个比较流行的html代码解析、处理开源项目)学习,总结

HTMLParser(一个比较流行的html代码解析、处理开源项目)学习,总结

时间:2023-08-10 19:01:28浏览次数:34  
标签:String org Parser 开源 html htmlparser import HTMLParser 节点

主页:

http://htmlparser.sourceforge.net/


 HtmlParser初步研究

by lostfire


这两天准备做一些网站编程的工作,于是对HtmlParse小研究了一下,目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。

一,数据组织分析:

HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。


Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。

AbstractNode是Node的一种具体的类实现,起到构成树形结构的作用,除了同具体Node相关的accetp方法,toString,toHtml,toPlainTextString方法以外,AbstractNode实现了大多基本的方法,使得它的子类,不用理会具体的树操作。

Tag是具体分析的主要内容。Tag分成composite的Tag和不能包含其他Tag的简单Tag两类,其中前者的基类是CompositeTag,其子类包含BodyTag,Div,FrameSetTag,OptionTag,等27个子类;而简单Tag有BaseHrefTag、DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag这八类。

Node分成三类:


RemarkNode:代表Html中的注释

TagNode:标签节点,是种类最多的节点类型,上述Tag的具体节点类都是TagNode的实现。

TextNode:文本节点

二,Visitor方式访问Html:

1,整体解析过程

用一个URL或页面String做一个Parser

用这个Parser做一个Visitor

使用Parser.visitAllNodeWith(Visitor)来遍历节点

获取Visitor遍历后得到的数据

2,Visit过程

做解析之前做的事情:visitor.beginParsing();

每次取到一个节点Node,让该Node接受accept该Visitor

做解析后做的事情:visitor.finishedParsing();

3,获取节点的过程:逐步遍历Html,分析出Node 。此部分较为复杂,且对于我们应用来说无需很多了解,暂跳过。

4,节点访问

节点访问采用Visitor模式,Node的accept方法和具 体Visitor的visit方法是关键。

首先三类Node来accept的方式各不相同:

对于所有TagNode都使用一个accept方法,即TagNode的accept方法。首先判断是否是标签结尾,如果是就visitor.visitEndTag (this);否则visitor.visitTag (this);

如果是TextNode,那就visitor.visitStringNode (this);就可以了。

如果是RemarkNode,那就visitor.visitRemarkNode (this);就可以了。


实际上NodeVisitor里边这四种visit方法都是空的,因为在不同的Visitor中对于这三类节点的处理是不同的;对于需要处理的节点,只要重载对应的visit方法就行了,如果不处理那就不理会就可以了;另外,如果用户用自己的Visitor,那么还可以灵活的处理不同类型的节点了。


系统为我们实现了下面我要介绍的8种Visitor ,实际上可以看作是系统给我们演示了如何做各种各样的Visito r来访问Html,因为实际上我们要真正来用HtmlParser 的话,还需要特定的Visitor,而通过简单的这些系统提供的V isitor组合是难以做成什么事情的。

三,系统Visitor功能简介:

ObjectFindingVisitor:用来找出所有指定类型的节点,采用getTags()来获取结果。

StringBean:用来从一个指定的URL获取移除了<SCRIPT></SCRIPT>和<PRE></PRE>之间代码的Html代码,也可以用做Visitor,用来移除这两种标签内部的代码,采用StringBean.getStrings()来获取结果。

HtmlPage:提取Title,body中的节点和页面中的TableTag节点。

LinkFindingVisitor:找出节点中包含某个链接的总个数。

StringFindingVisitor:找出遍历的TextNode中含有指定字符串的个数。

TagFindingVisitor:找出指定Tag的所有节点,可以指定多种类型。

TextExtractingVisitor:从网页中把所有标签去掉来提取文本,这个提取文本的Visitor有时是很实用的,只是注意在提取文本时将标签的属性也去掉了,也就是说只剩下标签之间的文本,例如<a>中的链接也去掉了。

UrlModifyingVisitor:用来修改网页中的链接。

四,Filter

如果说visitor是遍历提取信息,当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息,这都取决于我们的Visitor做成什么样子,那么Filter则目标很明确,就是用来提取节点的。所以说要想用HtmlParser,首先要熟悉上面讲到的数据组织。

系统定义了17种具体的Filter,包括依据节点父子关系的Filter,连接Filter组合的Filter,依据网页内容匹配情况的filter,等等。我们也可以implement Filter来做自己的Filter来提取节点。

Filter的调用是同Visitor独立的,因为也无需先filter出一些NodeList,再用Visitor来访问。调用Filter的方法是:

NodeList nodeList = myParser.parse(someFilter);

解析之后,我们可以采用:

Node[] nodes = nodeList.toNodeArray();

来获取节点数组,也可以直接访问:

Node node = nodeList.elementAt(i)来获取Node。

另 外,在Filter后得到NodeList以后,我们仍然可以使用NodeList的extractAllNodesThatMatch (someFilter)来进一步过滤,同时又可以用NodeList的isitAllNodesWith(someVisitor)来做进一步的访问。

这 样,我们可以看到HtmlParser为我们提供了非常方便的Html解析方式,针对不同的应用可以采用visitor来遍历Html节点提取数据,也可 以用Filter来过滤节点,提取出我们所关注的节点,再对节点进行处理。通过这样的组合,一定能够找出我们所需要的信息。

参考:

http://htmlparser.sourceforge.net/

http://www.blogjava.net/rocky/archive/2005/12/21/24997.aspx

http://www.westing.cn/xblog/?p=90



获取帮助:

邮件列表:

http://sourceforge.net/mail/?group_id=24399

主页上的sample:

http://htmlparser.sourceforge.net/samples.html

在发布的包里没有demo或example文件夹,但是在有些类,比如org.htmlparser.Parser

有public static void main(String[] args)这个方法,其中有一些该类的使用方法。

org.htmlparser.Parser.main(String[] args)中就有Parse a web page and print the tags in a simple loop的方法。这在http://htmlparser.sourceforge.net/samples.html上有说明。

特别的:一个java web start

http://htmlparser.sourceforge.net/samples/filterbuilder.jnlp

帮助认识和使用filter。



一些常见处理:

应用HtmlParser处理含HTML标签的字符串或网页

String Extraction


To get all the text content from a web page, use the TextExtractingVisitor, like so:

import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
public class StringDemo
{
    public static void main (String[] args) throws ParserException
    {
        Parser parser = new Parser ("http://pageIwantToParse.com");
        TextExtractingVisitor visitor = new TextExtractingVisitor ();
        parser.visitAllNodesWith (visitor);
        System.out.println (visitor.getExtractedText());
    }
}
If you want a more browser like behaviour, use the StringBean like so:

import org.htmlparser.beans.StringBean;
public class StringDemo
{
    public static void main (String[] args)
    {
        StringBean sb = new StringBean ();
        sb.setLinks (false);
        sb.setReplaceNonBreakingSpaces (true);
        sb.setCollapse (true);
        sb.setURL ("http://pageIwantToParse.com");
        System.out.println (sb.getStrings ());
    }
}
To get all the text content from a web page you already have in a string:

import org.htmlparser.Parser;
import org.htmlparser.Node;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.ParserException;
public class StringDemo
{
    public static void main (String[] args) throws ParserException
    {
        Parser myParser;
        Node[] nodes = null;
        String content = "";
        myParser = Parser.createParser(content, null);

        nodes = myParser.extractAllNodesThatAre(TextNode.class); //exception could be thrown here

        for (int i = 0; i < nodes.length; i++)
        {
            TextNode textnode = (TextNode) nodes[i];
            String line = textnode.toPlainTextString().trim();
            if (line.equals("")) continue;
            System.out.println(line);
        }
    }


HTMLParser 使用

最近在研究lucene,主要做ftp搜索和网页的站内搜索。

ftp搜索比较好做,主流的FTP有两种一种是IIS的一种是Server-U的.

真对这两种FTP分别进行分析就可以得到FTP资源的文件名和路径及大小和日期

然后对其进行索引就可以了,比较简单。

网页检索可不像ftp那样了,我试着用lucene自带的htmlparser,解析纯英文的网页

没有问题,可解析中文的网页时有时会遇到编码问题。郁闷。。。

SourceForge搜到了一个开源的HTMLParser。网址是http://htmlparser.sourceforge.net

目前的版本为1.6。


测试代码为:


import java.io.*;
import org.htmlparser.filters.*;
import org.htmlparser.*;
import org.htmlparser.nodes.*;
import org.htmlparser.tags.*;
import org.htmlparser.util.*;
import org.htmlparser.visitors.*;


public class HTMLParserTest
{
 public static void main(String args[]) throws Exception
 {
  String path = "D://Webdup//MyWebsites//biti//download//latest//cisco.biti.edu.cn//index.html";
  StringBuffer sbStr = new StringBuffer();
  BufferedReader reader  = new BufferedReader(new FileReader(new File(path)));
  String temp = "";
  while((temp=reader.readLine())!=null)
  {
   sbStr.append(temp);
   sbStr.append("/r/n");
  }
  reader.close();
 
 
  String result = sbStr.toString();
   readAll(result);
        readTextAndLink(result);
        readByHtml(result);
     readTextAndTitle(result);
 }
 

 //按页面方式处理.解析标准的html页面
 public static void readByHtml(String content) throws Exception
    {
        Parser myParser;
        myParser = Parser.createParser(content, "GB2312");

        HtmlPage visitor = new HtmlPage(myParser);

        myParser.visitAllNodesWith(visitor);

        String textInPage = visitor.getTitle();
        System.out.println(textInPage);
        NodeList nodelist ;
        nodelist = visitor.getBody();
        System.out.print(nodelist.asString().trim());
 
 
    }
   
    //读取文本内容和标题
 public static void readTextAndTitle(String result) throws Exception
 {
  Parser parser ;
  NodeList nodelist ;
  parser = Parser.createParser(result,"GB2312");
  NodeFilter textFilter = new NodeClassFilter(TextNode.class);
  NodeFilter titleFilter = new NodeClassFilter(TitleTag.class);
  OrFilter lastFilter = new OrFilter();
  lastFilter.setPredicates(new NodeFilter[]{textFilter,titleFilter});
  nodelist = parser.parse(lastFilter);
  Node[] nodes = nodelist.toNodeArray();
  String line ="";
  for(int i=0;i<nodes.length;i++)
  {
   Node node = nodes[i];
   if(node instanceof TextNode)
   {
    TextNode textnode = (TextNode) node;
    line = textnode.getText();
   }
   else
   if(node instanceof TitleTag)
   {
    TitleTag titlenode = (TitleTag) node;
    line = titlenode.getTitle();
   }
   if (isTrimEmpty(line))
                continue;
            System.out.println(line);
  }
 }
 
 //分别读纯文本和链接
 
 public static void readTextAndLink(String result) throws Exception
 {
  Parser parser;
  NodeList nodelist;
  parser = Parser.createParser(result,"GB2312");
  NodeFilter textFilter = new NodeClassFilter(TextNode.class);
  NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
  OrFilter lastFilter = new OrFilter();
  lastFilter.setPredicates(new NodeFilter[] { textFilter, linkFilter });
  nodelist = parser.parse(lastFilter);
  Node[] nodes = nodelist.toNodeArray();
  String line ="";
  for(int i=0;i<nodes.length;i++)
  {
   Node node = nodes[i];
   if(node instanceof TextNode)
   {
    TextNode textnode = (TextNode) node;
    line = textnode.getText();
   }
   else
   if(node instanceof LinkTag)
   {
    LinkTag link = (LinkTag)node;
    line = link.getLink();
   }
   if (isTrimEmpty(line))
                continue;
            System.out.println(line);
  }
 }
 
 
 
 
 
 public static void readAll(String result) throws Exception
 {
  Parser parser;
  Node[] nodes ;
  parser = Parser.createParser(result,"GB2312");
  nodes = parser.extractAllNodesThatAre(TextNode.class);
 
  //读取所有的内容节点
  for (int i = 0; i < nodes.length; i++)
        {
            TextNode textnode = (TextNode) nodes[i];
            String line = textnode.toPlainTextString().trim();
            if (line.equals(""))
                continue;
            System.out.println(line);
        }
 }
 
 
 /**
     * 去掉左右空格后字符串是否为空
     */
    public static boolean isTrimEmpty(String astr)
    {
        if ((null == astr) || (astr.length() == 0))
        {
            return true;
        }
        if (isBlank(astr.trim()))
        {
            return true;
        }
        return false;
    }

    /**
     * 字符串是否为空:null或者长度为0.
     */
    public static boolean isBlank(String astr)
    {
        if ((null == astr) || (astr.length() == 0))
        {
            return true;
        }
        else
        {
            return false;
        }
    }


参考:http://htmlparser.sourceforge.net/



处理特定tag:

参考:http://sourceforge.net/mailarchive/message.php?msg_id=25aac9fc0704200423h78893925y72cb75136be7330%40mail.gmail.com

package cn.yethyeth.forTest;

思路:建立一个新的NodeVisitor,在其中处理visitTag这个函数(具体原理见上面第一篇文章)



import  org.htmlparser.Parser;
 import  org.htmlparser.Tag;
 import  org.htmlparser.util.ParserException;
 import  org.htmlparser.visitors.NodeVisitor;


 public   class  HTMLParserHandleTag  extends  NodeVisitor {
    public void visitTag (Tag tag)
    {
    if( tag.getAttribute("class")!=null ){
    System.out.println (" " + tag.getTagName () + tag.getAttribute("class"));
    }
    }
   
    public static void main (String[] args) throws ParserException
    {
    Parser parser = new Parser ("http://bbs.qihoo.com/ttgz/index.html");
    NodeVisitor visitor = new HTMLParserHandleTag ();
    parser.visitAllNodesWith (visitor);
    }
}

更简单的方法:使用 TagNameFilter , HasAttributeFilter,AndFilter。
TagNameFilter过滤特定名字的tag,
HasAttributeFilter过滤特定名字和值的tag,
AndFilter将多个filter组合起来。
/*
 * TestFilter.java, 2007-5-13 1:22:45.
 *
 * CopyRight (c) 2007-2007, yethyeth ,All rights reserved.
 *
 * This file is licenced under the Apache License.
 */

package com.bighai.forTest;

import org.apache.commons.lang.StringUtils;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class TestFilter {

    /**
     * @param args
     * @throws ParserException
     */
    public static void main(String[] args) throws ParserException {
        // TODO Auto-generated method stub
        Parser parser = new Parser("http://bbs.qihoo.com/ttgz/index.html");
        AndFilter filter =
            new AndFilter(
                    new TagNameFilter("div"),
                        new HasAttributeFilter("class","rLCon") );

        NodeList nodes = parser.parse(filter);

        for( int i = 0; i < nodes.size(); i++ ){

            System.out.println(
                    ((Tag)nodes.elementAt(i)).getTagName()+" class="+
                    ((Tag)nodes.elementAt(i)).getAttribute("class") );
        }
    }

}

结果:

DIV  class = rLCon


标签:String,org,Parser,开源,html,htmlparser,import,HTMLParser,节点
From: https://blog.51cto.com/u_11326739/7039002

相关文章

  • 借助Aspose.Html 将 HTML 模板与 XML 或 JSON 合并
    在现代网络开发中,内容和表示的分离是一个基本原则。HTML模板提供了一种定义网页结构和布局的便捷方法,而JSON和XML数据格式通常用于存储和传输结构化信息。结合这些技术,开发人员可以根据外部源的数据动态生成HTML内容。在这篇博文中,我们将探讨如何在Java中将HTML模板与JS......
  • 构建含wkhtmltopdf的jre镜像
    目录官网地址字体下载支持wkhtmlto的镜像Dockerfile构建镜像验证wkhtmltopdf官网地址https://wkhtmltopdf.org/字体下载https://github.com/StellarCN/scp_zh/tree/master/fonts支持wkhtmlto的镜像https://hub.docker.com/r/aantonw/alpine-wkhtmltopdf-patched-qt将......
  • 讨论 | 如何为雷达学习者建立一个较好的知识开源分享交流空间?(知乎+公众号+微信群模式)
    本文编辑:@调皮连续波,保持关注调皮哥,获得更多学习内容和建议!自从建立了雷达工程技术交流微信群以来,随着雷达研究人员们的激烈讨论,我逐渐意识到了一个严重的问题,即:各位雷达学习者在雷达微信群里咨询的问题,只能够解决的此刻当事人遇到的疑问,而对于后来可能会遇到同样问题的雷达学习者,......
  • 2023年十款开源测试开发工具推荐(自动化、性能、造数据、流量复制)
    ​1、AutoMeter-API自动化测试平台AutoMeter是一款针对分布式服务,微服务API做功能和性能一体化的自动化测试平台,一站式提供发布单元,API,环境,用例,前置条件,场景,计划,报告等管理在项目开发,迭代交付过程中开发人员,测试人员需要针对系统提供的API做调试,回归测试,性能测试。自动......
  • 洪君:http 洪君 开源项目推荐
    https://pig4cloud.com/ pig官网https://pigx.pig4cloud.com/ pig演示模范: 基于SpringCloud、OAuth2.0、Vue的前后端分离的权限管理系统https://gitee.com/hcking/pig  pig基于SpringCloud、OAuth2.0、Vue的前后端分离的系统。通用RBAC权限设计及其数据权限和分库分表......
  • 耗时6个月,我做了一款干净、免费、开源的AI数据库
    一、Chat2DB简介在消失的这段时间,我和小伙伴们做了一款集成了AI的数据库管理工具Chat2DB。他是数据库也集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,还可以给出SQL的优化建议,可以极大提升效率。GitHub地址:https://github.com/chat2db/chat2db官网地址:ht......
  • Codes 研发管理平台开源版 3.5 发布
    一:codes 简介Codes是一个高效、简洁、轻量的一站式研发管理平台。包含需求管理,任务管理,测试管理,缺陷管理,自动化测试,cicd等功能;常态下刀耕火种的test环节给自动化的DevOps踩下了刹车。Codes以技术最薄弱,最不被重视的测试为发力点,通过落地敏捷测试打通了研发与运维中间的枢钮润滑环......
  • 【JavaScript31】HTML DOM节点与节点属性
    前言DOM(DocumentObjectModel)文档对象模型,通过HTMLDOM,JavaScript能够访问和改变HTML文档的所有元素。当网页被加载时,浏览器会创建页面的文档对象模型(DocumentObjectModel)。HTMLDOM模型被结构化为对象树:DOM节点根据W3C的HTMLDOM标准,HTML文档中的所有内......
  • HTML5 技术在风电、光伏等新能源领域的应用
    随着新一轮工业革命兴起,应对气候变化日益成为全球共识,能源技术正在成为引领能源产业变革、实现创新驱动发展的源动力。从全球到中国,以风能、光伏发电为代表的新能源产业发展迅速,可再生能源发电与现代电网的融合成为了世界能源可持续转型的核心,发电技术继续沿着大规模、高效率和低成......
  • 基于 HTML5 OpenLayers3 实现 GIS 电信资源管理系统
    前言通过结合HTML5和OpenLayers可以组合成非常棒的一个电信地图网络拓扑图的应用,形成的效果可以用来作为电信资源管理系统,美食定位分享软件,片区找房,绘制铁轨线路等等,各个领域都能够涉及的一款应用。虽然这个Demo是结合OpenLayers3的,其实还可推广到与ArcGIS、百度地图以及......