首页 > 其他分享 >企业如何用爬虫做舆情监控

企业如何用爬虫做舆情监控

时间:2022-12-08 10:37:51浏览次数:54  
标签:string ip request 爬虫 舆情 监控 Proxy

数据采集通俗点来说就是通过爬虫代码访问目标网站的API链接获取有用的信息。爬虫程序就是模拟人工从网页中获取需要的信息,并自动保存在文档里面,应用十分广泛。例如图片、视频、文件、小说等等。前提是不能干违法的业务。

在互联网大数据时代中,网络爬虫主要是为搜索引擎提供最全面和最新的数据,网络爬虫也是从互联网上采集数据的爬虫程序。

我们也可以通过网络爬虫采集舆情数据,可以采集新闻,社交,论坛,博客等信息数据。这也是常见的舆情数据获取的方案之一。一般就是通过爬虫程序使用爬虫爬虫ip对一些有意义的网站进行数据采集。舆情数据也可以通过在数据交易市场去购买,或者找那些专业的舆情分析团队去获取,但是一般来说说,专业的舆情分析团队,也都是通过爬虫程序使用爬虫ip去采集的相关数据,从而进行舆情数据分析。

由于短视频的火爆,抖音,快手这两个主流短视频APP,我们也可以通过爬虫程序采集抖音,快手进行舆情数据分析。将统计的数据生成表格,提供给大家作为数据报告,也可以参考以下采集方案代码:

// 要访问的目标页面
string targetUrl = "http://httpbin.org/ip";

// 爬虫ip服务器( jshk.com.cn )
string proxyHost = "http://jshk.com.cn/mb/";
string proxyPort = "31111";

// 爬虫ip验证信息
string proxyUser = "username";
string proxyPass = "password";

// 设置爬虫ip服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);

ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method = "GET";
request.Proxy = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");


//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
string htmlStr = sr.ReadToEnd();
}

标签:string,ip,request,爬虫,舆情,监控,Proxy
From: https://blog.51cto.com/u_13488918/5920646

相关文章

  • 【2022-12-07】爬虫从入门到入狱(五)
    scrapy架构介绍#引擎(EGINE)引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分。#调度器(SCHEDULER)用来接......
  • 模拟数据监控(get和set)
    <!DOCTYPEhtml><html><head><metacharset="utf-8"><title></title><!--1.自动生成get和set好处1.可以永远给下......
  • 【爬虫】scrapy架构,应用
    目录1.scrapy架构介绍2.scrapy解析数据2.1使用bs42.2scrapy自带的解析(css)2.3scrapy自带的解析(xpath)3.settings相关配置,提高爬取效率3.1基础的一些3.2增加爬虫的爬......
  • 爬虫从入门到入狱(五)
    今日内容概要scrapy架构介绍scrapy解析数据settings相关配置持久化方案全站爬取cnblogs文章爬虫和下载中间件今日内容详细scrapy架构介绍#引擎(EGINE)引......
  • 学习python-爬虫
    爬虫041.爬虫介绍python是做爬虫比较方便,很多爬虫的库。其次java、gohttp协议pc端、小程序、app模拟发送http请求,拿到返回数据然后解析出我们想要的数据,最后保存......
  • 今日内容 scrapy的使用 提高爬虫效率
    scrapy架构介绍引擎(ENGINE)   引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分调度器(SCHEDULER) ......
  • Python爬虫实战,requests模块,Python抓取虎牙直播美女封面图片
    前言今天给大家的介绍Python爬取海量美女图片并保存本地。开发工具Python版本:3.8相关模块:requests模块multiprocessing模块urllib模块json模块环境搭建安装Pyth......
  • 爬虫碰到问题的解决办法
    问题:---指针如何变字符串---利用xpath插件定位,插件右边栏有文字结果,如图所示--->(如后面加text(),文字会缺失)-->不可取复制到ide里面,运行出结果如图所示一些列的指......
  • SpringCloud-Hystrix (熔断、降级、监控)
    Hystrix:服务熔断分布式系统面临的问题复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免失败!1服务雪崩​ 多个微服务之间调用的时......
  • 用Ubuntu+SecureCRT实现客户内网控制器的进程状态监控
    一、使用场景描述:用户有一台控制器的三个组件需要进行端口监控,控制器主机因为跟办公网络未在同一个网络区域,因此不能使用ssh进行直连进行监控。客户现场环境如下(见下......