目录
效果图
项目搭建
创建模块
自定义ES依赖版本
添加依赖 com.alibaba.fastjson
删除多余的文件
配置 application.properties
拷贝基本静态文件 css js images
拷贝页面 index.html
编写IndexController
启动项目
访问主页
爬取数据
:::info
爬取数据:获取请求返回的页面信息,筛选出想要的数据就可以了
:::
导入依赖 jsoup 解析网页
编写页面解析工具类
分析页面
:::info
这些图片特别多的网站,图片都是懒加载的,先加载JD这种统一图片,再渲染本身图片,所以src不是真正的图片url,source-data-lazy-img才是真正的图片url
:::
测试解析方法
编写实体类
提取解析方法并测试
:::info
注意:new URL()这样写不支持中文,如果用中文,使用new URL()重载的方法或其他
:::