- 2024-12-02Maven学习
初识Maven导入Maven依赖库生命周期JUNIT测试类MAVEN结束MAVEN库报错怎么办
- 2024-11-29单调队列优化dp
前置知识:单调队列不会的话可以去看我这一篇单调队列空讲太不清楚了,还是举个栗子可以发现,这很明显要用dp,看起来似乎跟单调队列有点关系,不过有一点区别,单调队列维护的是一段滑动窗口(就是一段连续长度,为\(k\)的子段),而这一题却是要求连续选择数不能超过\(k\)先直接给出暴力dp的
- 2024-05-25使用网络爬虫爬取省市区县的经纬度
我们从阿里云的数字可视化平台获取数据 http://datav.aliyun.com/tools/atlas爬取的链接如下:湖北省(不包含子区域):https://geo.datav.aliyun.com/areas_v3/bound/420000.json湖北地级市(包含子区域):https://geo.datav.aliyun.com/areas_v3/bound/420100_full.json(武汉市为例)湖北
- 2024-03-20【Java】11k star,一个强大的 Java 版爬虫框架,几行代码即可实现一个爬虫
From: https://mp.weixin.qq.com/s/rQf4bmHlSucAUlQy7jPNiQwebmagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。本项目在GitHub上有11.1KStar,非常热门,让不熟悉爬虫的小白也可以玩转爬虫。“申明:此教程仅供爬虫学习交流使用
- 2024-02-26采集豆瓣电影影评信息
1、进入豆瓣电影网页网站网站地址:https://movie.douban.com/review/best/2、右键网页检查,利用网页源代码查看网站跳转信息的规律从上面这张图片可以得到,查看该影片的详细信息,需要跳转的链接;3、下载需要的lib依赖包进入到/data/edu1的文件夹下,将事先下载好的webmagic所需要
- 2023-08-04WebMagic爬取北京市政信件内容
我采用创建了Letter类用来储存信件,重写了LetterFilePipeline使得爬取保存的文件名为信件Id,采用了多线程爬取,最后保存到letters目录下Letterpackageorg.example.crawler_letter;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;@Da
- 2023-07-14WebMagic
WebMagic是一个轻量级的Java开源网络爬虫框架,它提供了强大的抓取能力和灵活的扩展机制。使用WebMagic,你可以方便地编写爬虫程序来获取互联网上的数据。以下是WebMagic的一些特点和功能:1.简单易用:WebMagic提供了简洁的API,你可以通过几行代码就能编写一个爬虫程序。2.灵活的抓取
- 2023-06-14探秘WebMagic:爬虫神器
一、介绍WebMagic是一款基于Java的开源网络爬虫框架,能够快速、灵活、高效地实现网络数据的爬取和抽取。WebMagic支持多线程、分布式、自动重试等特性,而且使用起来也非常方便。二、优点1.快速:使用了NIO框架,能够高效地进行网络通信,提高爬虫效率。2.灵活:支持自定义爬取规则,能够
- 2023-02-27基于SpringBoot WebMagic爬虫爬取大乐透双色球
大乐透网页地址:https://kjh.55128.cn/dlt-history-360.htm双色球网页地址:https://kjh.55128.cn/ssq-history-120.htm 注:程序仅用于个人兴趣爱好,不得用于商业行为,本
- 2023-02-27WebMagic
原文链接:CSDN@qq_44885775#WebMagicWebMagic官网:Introduction·WebMagicDocumentsGitHub-WebMagicIntroduction·WebMagicDocuments4.7配置代理·WebMagi