之前我们介绍了境外社交数据主要的采集场景和采集方法。那除此之外,大家一定还有很多关心的、想详细了解的问题。本文将结合与客户合作过程的经验,为大家详细讲讲境外社交数据采集相关的一些问题。
问题目录:
- 01 所有的境外社交网站都可以采集吗?
- 02 网站上的所有数据都可以采集吗?
- 03 可以采集所有历史数据吗?
- 04 可以实现新增数据的实时采集吗?
- 05 如何稳定地采集境外社交数据?
- 06 采集到的数据可以实时导出吗?
- 07 支持哪些交付形式?
- 08 从确定需求到上线交付需要多长时间?
01所有的境外社交网站都可以采集吗?
可以。只要能正常访问的网站,都可以通过八爪鱼快速采集。包括但不限于Twitter、Facebook、YouTube、Instagram、LinkedIn、Pinterest、Google+、Tumblr、VK、Flickr 、MySpace、Tagged、Ask.fm、Meetup等。
但是有的网站防采集比较严格,自行尝试采集容易出问题。如果您有境外社交数据的采集需求,建议上八爪鱼官网联系客服,协助您进行采集测试。
02网站上的所有数据都可以采集吗?
可以。网站默认显示的、或者通过登录/点击等交互后展示出来的数据,都是可以采集的。
X(原Twitter)、Facebook、YouTube、Instagram等社交网站虽然主打的内容形式不同,但他们都属于社交媒体平台,其大的结构和功能比较相似,采集场景也具有很多共性,最常见的三类采集场景是:
① 指定账号下更新的推文/图片/视频采集;
② 特定关键词的实时搜索结果采集;
点击输入图片描述(最多30字)
③ 推文/图片/视频下的评论采集。
点击输入图片描述(最多30字)
03可以采集所有历史数据吗?
需根据网页情况具体分析。有的网站可看到所有的历史数据,则可以采集。有的网站只显示某一段时间的数据,其他隐藏起来,则无法采集。
点击输入图片描述(最多30字)
像Twitter首页是瀑布流加载新数据(向下滚动加载出新数据),滚动不限次数,无法查看到以前发布的所有历史数据。如果需要历史数据,则可从现在开始,定时多次采集更新的数据,不断沉淀。
04可以实现新增数据的实时采集吗?
可以。八爪鱼的独家云采集,支持设置灵活的定时策略,并采取分布式云采集方式,可以在极短时间内完成多个境外社交数据源更新数据的采集。
举个例子,我们有个客户需要采集Twitter上3000+指定账号实时更新的推文。怎么做呢?首先将3000+账号按更新频率进行分组,然后为每个组分配合理的云节点分布式采集,最终帮助客户实现3000+数据源更新数据的实时采集。
点击输入图片描述(最多30字)
05如何稳定地采集境外社交数据?
在进行境外社交数据采集时,我们可能会遇到以下稳定性问题:① 部分网站需要特定国家/地区IP才能访问;② 采集数据量大时可能遇到IP封锁;③ 出现云节点停采、数据漏采情况。
相对应地我们采取一系列措施,有效解决以上问题:① 购买海外云集群,用大量海外云节点访问并采集数据;② 支持自行导入不同国家的优质IP,再根据IP访问并采集数据;③ 搭建云上监控系统,一旦节点停采、数据漏采及时预警。
点击输入图片描述(最多30字)
06采集到的数据可以实时导出吗?
可以。八爪鱼提供高负载高吞吐的API接口,可以将采集结果秒级同步到企业数据库或内部系统中。
除使用API外,也有定时自动入库功能,无需技术人员即可实现数据自动入库。目前支持SqlServer、MySql、Oracle三种数据库。
点击输入图片描述(最多30字)
07支持哪些交付形式?
我们提供SaaS软件、私有化落地部署、数据服务等多种交付方式。
SaaS软件:购买八爪鱼SaaS软件,自行使用软件进行境外社交数据采集。
私有化落地部署:将八爪鱼软件部署到企业服务器上,并支持二次开发,数据安全性极高,可与企业业务系统高度融合。
数据服务:直接交付数据,包括数据采集,数据清洗到数据导出等一站式数据服务。
点击输入图片描述(最多30字)
08从确认需求到上线交付需要多长时间?
需根据您的需求具体评估,但整体来说是很快的。
整个过程主要为 确认需求→集中测试→购买事宜→上线交付→售后支持 几大环节,我们会有一对一专属客户经理跟进,确保各个环节顺利推进。
其中比较耗时的是集中测试,包括制作采集规则、测试采集效果等工作。由于我们已服务很好有类似需求的客户,积累了很多境外社交网站的采集规则和采集模板,可直接投入测试,项目推进相对就很快。我们曾在5天内,帮助某创业团队完成Twitter、Facebook、YouTube、Instagram四大网站近30+采集任务的创建和测试,协助他们的项目快速上线。
点击输入图片描述(最多30字)