项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼
注意事项
采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配
网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:
"link":"[参数]"
<a target="_blank" href="[参数]">
<div class="tit">(*)href="[参数]"
提前规则和拼接地址参数上下一一对应
<a href="[参数]" target="_blank">[参数]</a>
[参数2][参数1]
1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页
2、新建任务分组后可新建任务(即具体需采集的数据)
3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布
右键官方demo任务——编辑可查看任务的
4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多
5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换,title、content字段自己新建,
选择插入数据库后实时数据就没有了
INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')
6\发布可按照是正序还是倒序发布