首页 > 其他分享 >使用火车头采集器笔记

使用火车头采集器笔记

时间:2023-09-26 10:37:06浏览次数:35  
标签:火车头 标签 数据库 笔记 采集 采集器 参数 内容


项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼

注意事项

采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配

网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:

"link":"[参数]"

<a target="_blank" href="[参数]">

<div class="tit">(*)href="[参数]"

 

提前规则和拼接地址参数上下一一对应

<a href="[参数]" target="_blank">[参数]</a>

[参数2][参数1]

 

1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页

2、新建任务分组后可新建任务(即具体需采集的数据)

3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布

右键官方demo任务——编辑可查看任务的

 


4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多

5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换,title、content字段自己新建,

选择插入数据库后实时数据就没有了

INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')

 

6\发布可按照是正序还是倒序发布




标签:火车头,标签,数据库,笔记,采集,采集器,参数,内容
From: https://blog.51cto.com/u_2148212/7604940

相关文章

  • 力扣刷题笔记-05 最长回文子串
    05最长回文子串半山腰有点拥挤,你要去山顶看看。中心扩展法什么是回文从左边出发,字符的顺序和从右边出发是一样的,比如aba,abba。那么基于这个理论,我们就可以想到解决方案:找一个中心点,向两边出发,左右两边各移动一位,如果相同就证明是回文子串,不相同就停止,找下一个中心点中心点......
  • EMQX学习笔记:配置文件
    本文更新于2023-02-27,使用EMQX4.4.3。目录acl.confemqx.confplugins/emqx_auth_http.confplugins/emqx_auth_jwt.confplugins/emqx_auth_mongo.confplugins/emqx_coap.confplugins/emqx_management.confplugins/emqx_web_hook.conf官方文档:https://www.emqx.io/docs/zh/v4.4/co......
  • 《软件工程:一种实践方法》读书笔记一
    "软件工程:一种实践方法"是由RogerS.Pressman撰写的软件工程领域的经典教材。以下是一份读后感总结,其中包含了一些重要观点和感受:1.综合性与全面性:这本书对软件工程的内容进行了广泛的涵盖,涉及到了软件开发的各个方面,包括需求工程、设计、测试、维护和项目管理等。它提供了一个......
  • ARC140D 做题笔记
    洛谷题目链接ATcoder题目链接好题。(不过绝大部分题解全在瞎说)看到$n$个点$n$条边且每个点只有一条出边很容易的想到基环树。而最后每个连通块一定是一个基环树,那么统计连通块的数量就相当于统计基环树的数量。既然有基环树,这种题绝对不能枚举然后求连通块数量,一定是枚举......
  • 【学习笔记】(29) 笛卡尔树
    定义与性质笛卡尔树是一种二叉树,每一个结点由一个键值二元组\((k,w)\)构成。要求\(k\)满足二叉搜索树的性质,而\(w\)满足堆的性质。,也就是说,对于一个节点\(i\)的左儿子\(l_i\)和右儿子\(r_i\),一定满足\(l_i<i<r_i\)(下标\(k\)满足二叉搜索树的性质)且\(v_{l_i}\)与......
  • 组合数学学习笔记
    这是一位数学小萌新看oi-wiki的一点点收获。二项式定理二项式定理是组合数学中很基础且很重要的定理,它的式子为:\((a+b)^n=\sum_{i=0}^n\binom{n}{i}a^ib^{n-i}\)可以通过归纳法剖析\((a+b)^n\)的过程证明其正确性。范德蒙德卷积:\(\large\sum_{i=0}^k\binom{n}{i}......
  • 【笔记】机器学习基础 - Ch6.5-6 Kernel Methods
    6.5Sequencekernels考虑拓展\(K:\calX\timesX\to\mathbb{R}\)到\(\calX\)不是向量空间的情况,例如序列、图像等等。现在令\(\calX\)为字符串的集合,对应的核称为序列核sequencekernels;一种序列核的框架,称为rationalkernels,建立在称为加权转换器weightedtransduce......
  • Python学习笔记1
    a="好的,测试字符tester"b=17c=3print(a[1:5])#从第1(包含)个字符取到第5(不包含)个字符print(a[:3])#取到第3个字符(不含3)print(a[-5:-1])#取倒数第5个到倒数第1个print(a[-1:])#取最后一个字符print(len(a))#字符长度#exit()#退出与quit()一样,里面......
  • 信2105-3孟德昊阅读笔记规划
    这学期建民老师要求了我们每人进行不少于三本书的阅读,并给了我们很多的可读书籍的选择。我打算选择《软件需求》《软件需求模式》《敏捷软件需求》三本书来进行阅读,并作出相应的读书笔记,在读完之后进行认真的读书讨论,真正做到完全理解书中的内容,不是为了读书而读书,而是为了自己而......
  • 动态规划——区间DP 学习笔记
    动态规划——区间DP学习笔记不含四边形不等式优化。定义线性动态规划的局限性在于,它只能顺推或倒退,而不能有子区间依赖的问题。区间动态规划是线性动态规划的扩展,它将问题划分为若干个子区间,并通过定义状态和状态转移方程来求解每个子区间的最优解,最终得到整个区间的最优解。......