首页 > 编程语言 >Java文章抓取

Java文章抓取

时间:2023-02-18 21:32:20浏览次数:45  
标签:Java String System 抓取 spiderResultVO 文章 children out

@PostMapping("/grab")
@ApiOperationSupport(order = 9)
@ApiOperation(value = "抓取", notes = "传入grabUrl")
public R grabe(@ApiParam(value = "抓取", required = true)@RequestParam String grabUrl){
SpiderResultVO spiderResultVO=new SpiderResultVO();
System.out.println("=================="+grabUrl);
try {
Document document=null;
document= Jsoup.connect(grabUrl).get();

String title=document.selectFirst("h1").text();
System.out.println("抓取之后的标题:"+title);
String author=document.selectFirst(".info>span>span:eq(3)").text();
System.out.println("抓取之后的作者:"+author);

Element createTimeElement=document.select(".info>span").first().children().last();
Date crateTime= DateUtil.parse(createTimeElement.text(),"yyyy-MM-dd");
System.out.println("抓取之后的时间:"+crateTime);

//來源。
Element sourceElement = document.selectFirst(".info>span>span:eq(1) a");
String sourceName = sourceElement.text() ;
String sourceUrl = sourceElement.attr ("href");
System.out.println("抓取之后的來源:"+sourceName);
System.out.println("抓取之后的路径:"+sourceUrl);
//正文
Element articleBody = document. getElementById("articleBody") ;
Elements children = articleBody. children() ;
children. select("p[style*=float]").remove();
children. select("div.o.cl.ptm.pbm").remove() ;
children. select("div.arc_copyright"). remove() ;
children. select(" dl.navi"). remove();
String content = articleBody. html() ;
System.out.println("抓取之后的正文:"+content);
//摘要。
String summary = children.first().text();
spiderResultVO.setTitle(title);
spiderResultVO.setAuthor(author);
spiderResultVO.setSourceName(sourceName);
spiderResultVO.setSourceUrl(sourceUrl);
spiderResultVO.setContent(content);
spiderResultVO.setSummary(summary);
} catch (IOException e) {
e.printStackTrace();
}
return R.data(spiderResultVO);
}

标签:Java,String,System,抓取,spiderResultVO,文章,children,out
From: https://blog.51cto.com/u_15907719/6065532

相关文章

  • Java正则匹配域名白名单
    在上一篇文章《通用正则表达式开源工具,为开源绵尽薄力》中,我们介绍了很多正则表达式的实例,工作中大家也经常遇到新的规则需要匹配,今天就看一下检测域名白名单的几种方式......
  • JAVA多线程(二)--线程池
    JAVA多线程(二)--线程池一、线程池概念顾名思义,线程池是管理线程的池子。使用线程池有以下优点:降低线程创建和销毁的开销。提高响应速度。用到时创建和直接使用已创建......
  • Java代码工具快速生成词云图(强烈建议收藏)
    “词云”一词最早是由美国西北大学新闻学副教授、新媒体专业主任里奇戈登(RichGordon)提出的。词云(WordCloud),又称文字云、标签云(TagCloud)、关键词云(KeywordCloud),是对文本......
  • Java 只有值传递
    实参:传递给方法的参数,必须有确定的值。形参:定义方法的参数,接收实参,不需要有确定的值值传递:方法接收的是实参值的拷贝,会创建副本。引用传递:方法接收的是实参所引用的......
  • 算法刷题-计算某字符出现次数-JAVA
    0x00引言为获取一个良好的算法思维,以及不再成为一个脚本小子,争取每天一道算法题,培养自己的逻辑思维,温顾各类型语言语法知识。题解只写自己理解的解法,其他解法不再增加。......
  • Error:(3, 32) java: 无法访问org.springframework.boot.SpringApplication,错误的类文
    启动Springboot项目报错 这是Springboot的版本和Java的版本不对应导致的。 Springboot2.0以上版本最低需要java8支持;Springboot3.0以上的版本最低需要java17支持!参......
  • JAVASE小练习 (今天做一个基于javase的银行ATM小练习)
    实现的功能有1,用户登录2,用户开户(基于用户登录)3,查询账户(基于用户登录)4,存款5,取款6,转账7,修改密码(只有三次确认密码的机会)8,退出登录9,注销这个小例子可以让我们充分复习所学......
  • jmeter远程启动报:Connection refused to host: 127.0.0.1; nested exception is: ja
    jmeter.properties文档中如下设置:(本地机器当从机127.0.0.1) 在jmeter中 运行->远程启动127.0.0.1:4445 时,报错:Connectionrefusedtohost:127.0.0.1;nestedexce......
  • JavaScript中数组是如何在内存中存储的?
    前言大家好,我是CoderBin,本次讲讲JavaScript中数组是如何在内存中存储的,希望对大家有所帮助,谢谢。如果文中有不对、疑惑的地方,欢迎在评论区留言指正......
  • java处理异常这一篇就够了
    java异常packagecom.text01;importjava.util.Scanner;publicclassText{publicstaticvoidmain(String[]args){//实现一个功能://键盘录入俩个......