首页 > 编程语言 >使用selenium定时爬取网页内容-java版本

使用selenium定时爬取网页内容-java版本

时间:2022-11-24 15:05:58浏览次数:57  
标签:valus java split1 selenium fund rate import 网页内容 org


使用场景

某些网页有反扒机制,使用jsoup和httpclient不能满足要求,使用selenium可以。

环境配置

​https://registry.npmmirror.com/binary.html?path=chromedriver/​

下载解压即可,解压路径代码中会使用到。
 

pom引入

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.7.2</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
<groupId>com.pshdhx.fund</groupId>
<artifactId>tiantianjijin</artifactId>
<version>0.0.1-SNAPSHOT</version>
<name>tiantianjijin</name>
<description>天天基金数据爬取</description>
<properties>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>

<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<version>1.18.4</version>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>


<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.4</version>
</dependency>

<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>4.0.0</version>
</dependency>

<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>8.0.29</version>
</dependency>

</dependencies>

<build>
<plugins>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
<configuration>
<excludes>
<exclude>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
</exclude>
</excludes>
</configuration>
</plugin>
</plugins>
</build>

</project>

数据库设置

db.setting放入到resources里边

## db.setting文件

url = jdbc:mysql://xxxxxx:3306/tiantian_fund?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
user = root
pass = xxxxxxx

## 可选配置
# 是否在日志中显示执行的SQL
showSql = true
# 是否格式化显示的SQL
formatSql = false
# 是否显示SQL参数
showParams = true
# 打印SQL的日志等级,默认debug,可以是info、warn、error
sqlLevel = debug

定时任务代码引入

package com.pshdhx.fund;

import cn.hutool.db.Db;
import cn.hutool.db.Entity;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeDriverLogLevel;
import org.openqa.selenium.chrome.ChromeOptions;
import org.springframework.context.annotation.Configuration;
import org.springframework.scheduling.annotation.EnableScheduling;
import org.springframework.scheduling.annotation.Scheduled;

import java.sql.SQLException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.time.LocalDateTime;
import java.util.Arrays;
import java.util.Date;
import java.util.List;

/**
* @author pshdhx
* @date 2022-08-01 13:23
*/
@Configuration //1.主要用于标记配置类,兼备Component的效果。
@EnableScheduling // 2.开启定时任务
public class ScheduleTask {
//3.添加定时任务
@Scheduled(cron = "0 0 10 ? * 2-6")
//或直接指定时间间隔,例如:5秒
//@Scheduled(fixedRate=5000)
private void configureTasks() throws ParseException {
//设置驱动
System.setProperty("webdriver.chrome.driver", "D:\\new\\chromeDownload\\chromedriver_win32\\chromedriver.exe");
ChromeOptions options = new ChromeOptions();
options.addArguments("--headless");
options.addArguments("--disable-gpu");
options.setLogLevel(ChromeDriverLogLevel.OFF);


//创建驱动
WebDriver driver = new ChromeDriver(options);

//与将要爬取的网站建立连接
driver.get("https://fund.eastmoney.com/data/fundranking.html#tall;c0;r;szzf;pn200;ddesc;");
WebElement searchBox = driver.findElement(By.id("dbtable"));
System.err.println("==========================================================");
WebElement tbody = searchBox.findElement(By.tagName("tbody"));
String text = tbody.getText();
String[] split = text.split("[\n]");
List<String> content = Arrays.asList(split);
String fund_code = null;
String fund_name = "";
Date fund_date = null;
Double fund_day_rate = null;
Double fund_week_rate = null;
Double fund_month_rate = null;
Double fund_month_3_rate = null;
for (int i = 0; i < content.size(); i++) {
if ((i + 1) % 4 == 1) {
//获取序号
}
if ((i + 1) % 4 == 2) {
//获取基金代码
fund_code = content.get(i);
}
if ((i + 1) % 4 == 3) {
//获取基金名称
fund_name = content.get(i).toString();
}
if ((i + 1) % 4 == 0) {
//获取基金净值信息
String fund_values = content.get(i).toString();
if (!"".equals(fund_values)) {
String[] valus = fund_values.split("[ ]");
if (valus.length > 5) {
fund_date = new SimpleDateFormat("yyyy-MM-dd").parse("2022-"+valus[0]);
if (valus[3].indexOf("%") != -1) {
String[] split1 = valus[3].split("[%]");
if(split1.length > 0){
fund_day_rate = Double.parseDouble(split1[0]);
}
}
if (valus[4].indexOf("%") != -1) {
String[] split1 = valus[4].split("[%]");
if(split1.length > 0){
fund_week_rate = Double.parseDouble(split1[0]);
}
}
if (valus[5].indexOf("%") != -1) {
String[] split1 = valus[5].split("[%]");
if(split1.length > 0){
fund_month_rate = Double.parseDouble(split1[0]);
}
}
if (valus[6].indexOf("%") != -1) {
String[] split1 = valus[5].split("[%]");
if(split1.length > 0){
fund_month_3_rate = Double.parseDouble(split1[0]);
}
}
}

try {
Db.use().insert(Entity.create("fund_info")
.set("fund_code",fund_code)
.set("fund_name",fund_name)
.set("fund_date",fund_date)
.set("fund_day_rate",fund_day_rate)
.set("fund_week_rate",fund_week_rate)
.set("fund_month_rate",fund_month_rate)
.set("fund_month_3_rate",fund_month_3_rate));
} catch (SQLException e) {
e.printStackTrace();
}

}

}

}
}

}

标签:valus,java,split1,selenium,fund,rate,import,网页内容,org
From: https://blog.51cto.com/u_15890333/5883992

相关文章

  • java LinkedList , ArrayDeque, ArrayList区别
    linkedlist  既实现了 list接口,又实现了 queue,deque接口, 底层用链表数据结构,便于增删元素和顺序迭代arraydeque 实现了 queue和deque接口,底层用数组实......
  • 新建java项目及案例 练习
    1.打开IDEA软件2.在工具栏中点击File,下拉框中找到New-》Project  3.点击Maven-》NEXT 4.显示以下界面,修改名称,点击Finish完成 5.显示以下界面,选择pom.xml文......
  • java proguard混淆通配符
    类名通配符如下:|通配符|含义||---||?|匹配单个字符,包名分隔符(.)除外||*|匹配除(.)外的任意字符||**|匹配任意字符(包含.),如com.rush.**匹配com.rush包下......
  • Selenium环境搭建
    Selenium环境搭建基于windows10素材素材下载地址说明pythonhttps://registry.npmmirror.com/binary.html?path=python/官网 https://mirrors.huaweicl......
  • 【Java Servlet 开发系列之一】在mac系统安装Apache Tomcat的详细步骤
    本站文章均为​​ 李华明Himi ​​​原创,转载务必在明显处注明:对于ApacheTomcat估计很多童鞋都会,那么今天就简单说下在mac上进行tomcat的安装;  第一步:下载Tomcat ......
  • java 基础——数组
    什么是数组?官方定义:数组(Array)是有序的元素序列。  简单来说:可以把数组想象成一个线性数据结构,用来装东西的,每个东西有自己的编号,并且编号是从0开始(重点) 直接来看......
  • 匆匆那年之Java程序员之最近两周的面试总结:
    匆匆那年之Java程序员之最近两周的面试总结:(一):匆匆那年之来帝都之初:还记得那是2011年的冬天,我们一行20多个同学一起来到了这个一直向往的城市首都,刚到北京是凌晨4点30,......
  • JAVA IO 快速入门
      packagecom.example.demo;importjava.io.File;importjava.io.IOException;publicclasstest{publicstaticvoidmain(String[]args)throwsIOExcep......
  • Java-Jdbc,JDBC连接Oracle11g实例:
    很长时间没用Oracle数据库了,今天在公司的电脑上装了一个Oracle11g,安装完成后,顺便写了个简单的Jdbc连接Oracle的例子,现在记录一下,方便以后查看:例子很简单,直接上代码:(注意:在测......
  • kotlin类似javalist map所谓c shape 或ios那边的字典的遍历循环和创建以及泛型
    println("testlengthfunc:${getObjectLength("Howlongdoihave,please?")}");//geLength会出现会重写的情况,应该是自动倒入了某些系统的类导致的。varlist=li......