首页 > 编程语言 >C#简化工作之实现网页爬虫获取数据

C#简化工作之实现网页爬虫获取数据

时间:2023-11-27 21:23:27浏览次数:44  
标签:Trim string C# 爬虫 Replace 获取数据 InnerText nbsp tds

公众号「DotNet学习交流」,分享学习DotNet的点滴。

1、需求

想要获取网站上所有的气象信息,网站如下所示:

image-20231127193134632

目前总共有67页,随便点开一个如下所示:

image-20231127193254040

需要获取所有天气数据,如果靠一个个点开再一个个复制粘贴那么也不知道什么时候才能完成,这个时候就可以使用C#来实现网页爬虫获取这些数据。

2、效果

先来看下实现的效果,所有数据都已存入数据库中,如下所示:

image-20231127193726966

总共有4万多条数据。

3、具体实现

构建每一页的URL

第一页的网址如下所示:

image-20231127194211474

最后一页的网址如下所示:

image-20231127195622290

可以发现是有规律的,那么就可以先尝试构建出每个页面的URL

    // 发送 GET 请求
   string url = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
   HttpResponseMessage response = await httpClient.GetAsync(url);

   // 处理响应
   if (response.IsSuccessStatusCode)
  {
       string responseBody = await response.Content.ReadAsStringAsync();
       doc.LoadHtml(responseBody);
       //获取需要的数据所在的节点
       var node = doc.DocumentNode.SelectSingleNode("//div[@class=\"page\"]/script");
       string rawText = node.InnerText.Trim();
       // 使用正则表达式来匹配页数数据
       Regex regex = new Regex(@"\b(\d+)\b");
       Match match = regex.Match(rawText);
       if (match.Success)
      {
           string pageNumber = match.Groups[1].Value;
           Urls = GetUrls(Convert.ToInt32(pageNumber));
           MessageBox.Show($"获取每个页面的URL成功,总页面数为:{Urls.Length}");
      }

  }

//构造每一页的URL
public string[] GetUrls(int pageNumber)
{
    string[] urls = new string[pageNumber];
    for (int i = 0; i < urls.Length; i++)
    {
        if (i == 0)
        {
            urls[i] = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/index.shtml";
        }
        else
        {
            urls[i] = $"https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/index_{i}.shtml";
        }
    }
    return urls;
}

这里使用了HtmlAgilityPack

image-20231127195928840

HtmlAgilityPack(HAP)是一个用于处理HTML文档的.NET库。它允许你方便地从HTML文档中提取信息,修改HTML结构,并执行其他HTML文档相关的操作。HtmlAgilityPack 提供了一种灵活而强大的方式来解析和处理HTML,使得在.NET应用程序中进行网页数据提取和处理变得更加容易。

 // 使用HtmlAgilityPack解析网页内容
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml("需要解析的Html");
//获取需要的数据所在的节点
var node = doc.DocumentNode.SelectSingleNode("XPath");

那么XPath是什么呢?

XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它是W3C(World Wide Web Consortium)的标准,通常用于在XML文档中执行查询操作。XPath提供了一种简洁而强大的方式来导航和操作XML文档的内容。

构建每一天的URL

获取到了每一页的URL之后,我们发现在每一页的URL都可以获取关于每一天的URL信息,如下所示:

image-20231127201037439

可以进一步构建每一天的URL,同时可以根据a的文本获取时间,当然也可以通过其他方式获取时间,但是这种可以获取到11点或者17点。

代码如下所示:

    for (int i = 0; i < Urls.Length; i++)
  {
       // 发送 GET 请求
       string url2 = Urls[i];
       HttpResponseMessage response2 = await httpClient.GetAsync(url2);
       // 处理响应
       if (response2.IsSuccessStatusCode)
      {
           string responseBody2 = await response2.Content.ReadAsStringAsync();
           doc.LoadHtml(responseBody2);
           var nodes = doc.DocumentNode.SelectNodes("//div[@class=\"lie\"]/ul/li");
           for (int j = 0; j < nodes.Count; j++)
          {
               var name = nodes[j].ChildNodes[3].InnerText;
               //只有name符合下面的格式才能成功转换为时间,所以这里需要有一个判断
               if (name != "" && name.Contains("气象预告"))
              {
                   var dayUrl = new DayUrl();
                   //string format;
                   //DateTime date;
                   // 定义日期时间格式
                   string format = "yyyy年M月d日H点气象预告";
                   // 解析字符串为DateTime
                   DateTime date = DateTime.ParseExact(name, format, null);
                   var a = nodes[j].ChildNodes[3];
                   string urlText = a.GetAttributeValue("href", "");
                   string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
                   string realUrl = "";
                   realUrl = newValue + urlText.Substring(1);
                   dayUrl.Date = date;
                   dayUrl.Url = realUrl;
                   dayUrlList.Add(dayUrl);
              }
               else
              {
                   Debug.WriteLine($"在{name}处,判断不符合要求");
              }

          }
      }
  }
   // 将数据存入SQLite数据库
   db.Insertable(dayUrlList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
   MessageBox.Show($"获取每天的URL成功,共有{dayUrlList.Count}条");
}

在这一步骤需要注意的是XPath的书写,以及每一天URL的构建,以及时间的获取。

XPath的书写:

 var nodes = doc.DocumentNode.SelectNodes("//div[@class=\"lie\"]/ul/li");

表示一个类名为"lie"的div下的ul标签下的所有li标签,如下所示:

image-20231127201558734

构建每一天的URL:

 var a = nodes[j].ChildNodes[3];
string urlText = a.GetAttributeValue("href", "");
string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
string realUrl = "";
realUrl = newValue + urlText.Substring(1);

这里获取li标签下的a标签,如下所示:

image-20231127201814284

string urlText = a.GetAttributeValue("href", "");

这段代码获取a标签中href属性的值,这里是./202311/t20231127_3103490.shtml。

 string urlText = a.GetAttributeValue("href", "");
string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
string realUrl =  newValue + urlText.Substring(1);

这里是在拼接每一天的URL。

var name = nodes[j].ChildNodes[3].InnerText;
// 定义日期时间格式
string format = "yyyy年M月d日H点气象预告";
// 解析字符串为DateTime
DateTime date = DateTime.ParseExact(name, format, null);

这里是从文本中获取时间,比如文本的值也就是name的值为:“2023年7月15日17点气象预告”,name获得的date就是2023-7-15 17:00。

    // 将数据存入SQLite数据库
   db.Insertable(dayUrlList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
   MessageBox.Show($"获取每天的URL成功,共有{dayUrlList.Count}条");

这里是将数据存入数据库中,ORM使用的是SQLSugar,类DayUrl如下:

internal class DayUrl
{
  [SugarColumn(IsPrimaryKey = true, IsIdentity = true)]
   public int Id { get; set; }
   public DateTime Date { get; set; }
   public string Url { get; set; }
}

最后获取每一天URL的效果如下所示:

image-20231127202711471

获取温度数据

需要获取的内容如下:

image-20231127202852536

设计对应的类如下:

internal class WeatherData
{
  [SugarColumn(IsPrimaryKey = true, IsIdentity = true)]
   public int Id { get; set; }
   public string? StationName { get; set; }
   public string? Weather {  get; set; }
   public string? Tem_Low {  get; set; }
   public string? Tem_High { get; set; }
   public string? Wind {  get; set; }
   public string? Visibility_Low { get; set; }
   public string? Visibility_High { get; set; }
   public string? Fog { get; set; }
   public string? Haze { get; set; }
   public DateTime Date { get; set; }
}

增加了一个时间,方便以后根据时间获取。

获取温度数据的代码如下:

    var list = db.Queryable<DayUrl>().ToList();
   for (int i = 0; i < list.Count; i++)
  {
       HttpResponseMessage response = await httpClient.GetAsync(list[i].Url);
       // 处理响应
       if (response.IsSuccessStatusCode)
      {
           string responseBody2 = await response.Content.ReadAsStringAsync();
           doc.LoadHtml(responseBody2);
           var nodes = doc.DocumentNode.SelectNodes("//table");
           if (nodes != null)
          {
               var table = nodes[5];
               var trs = table.SelectNodes("tbody/tr");
               for (int j = 1; j < trs.Count; j++)
              {
                   var tds = trs[j].SelectNodes("td");
                   switch (tds.Count)
                  {
                       case 8:
                           var wd8 = new WeatherData();
                   wd8.StationName = tds[0].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Weather = tds[1].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Tem_Low = tds[2].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Tem_High = tds[3].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Wind = tds[4].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Visibility_Low = tds[5].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Visibility_High = tds[6].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Fog = tds[7].InnerText.Trim().Replace("&nbsp;", "");
                           wd8.Date = list[i].Date;
                           weatherDataList.Add(wd8);
                           break;
                       case 9:
                           var wd9 = new WeatherData();
                           wd9.StationName = tds[0].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Weather = tds[1].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Tem_Low = tds[2].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Tem_High = tds[3].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Wind = tds[4].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Visibility_Low = tds[5].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Visibility_High = tds[6].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Fog = tds[7].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Haze = tds[8].InnerText.Trim().Replace("&nbsp;", "");
                           wd9.Date = list[i].Date;
                           weatherDataList.Add(wd9);
                           break;
                       default:
                           break;
                  }


              }
          }
           else
          {
               
             
          }
      }
       // 输出进度提示
       Debug.WriteLine($"已处理完成第{i}个URL");
  }
   // 将数据存入SQLite数据库
   db.Insertable(weatherDataList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
   MessageBox.Show($"获取天气数据成功,共有{weatherDataList.Count}条");

}

这里使用swith case是因为网页的格式并不是一层不变的,有时候少了一列,没有霾的数据。

 wd9.StationName = tds[0].InnerText.Trim().Replace("&nbsp;", "");

这里对文本进行这样处理是因为原始的数据是“\n内容&nbsp\n”,C#中String.Trim()方法会删除字符串前后的空白,string.Replace("a","b")方法会将字符串中的a换成b。

效果如下所示:

image-20231127204509544

image-20231127204629667

将数据全部都存入数据库中了。

4、最后

通过这个实例说明了其实C#也是可以实现网页爬虫的,对于没有反爬的情况下是完全适用的,再配合linq做数据处理也是可以的。

标签:Trim,string,C#,爬虫,Replace,获取数据,InnerText,nbsp,tds
From: https://www.cnblogs.com/mingupupu/p/17860491.html

相关文章

  • 离线安装python相关库---以PyKinect2为例
    1、首先下载库的压缩包Kinect/PyKinect2:WrappertoexposeKinectforWindowsv2APIinPython(github.com)2、解压3、打开AnacondaPrompt------激活环境------切换路径到解压文件夹中setup.py所在位置------运行setup.py文件>>activatedemo_env>>cdC:\Users\Admini......
  • 安装pythorch一些命令
    nvidia-sminvcc-Vpip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu118condaactivateyolov8condalist,看有没有pytorch或者torchcondacreate–n虚拟环境名字python=版本 ......
  • 在Linux系统上搭建Tomcat环境
    简介Tomcat是一个免费的开源Web应用程序容器,是Apache软件基金会Jakarta项目的一部分。Tomcat可以运行在各种操作系统上,包括Linux、Windows和MacOSX。在Linux系统上搭建Tomcat环境,可以让您在Linux系统上运行Web应用程序。环境准备在搭建Tomcat环境之前,需要准备以下环境:一......
  • PostgreSQL - Execute sql file using psql
    zzh@ZZHPC:~$sudoaptinstallpostgresql-client zzh@ZZHPC:~$psql--versionpsql(PostgreSQL)14.9(Ubuntu14.9-0ubuntu0.22.04.1) zzh@ZZHPC:~$psqlpostgresql://root:aaa@localhost:5432/zimple_bankpsql(14.9(Ubuntu14.9-0ubuntu0.22.04.1),server......
  • jpackage与jlink等编译打包工具
    jpackage与jlink等编译打包工具都位于jdk/bin目录下,可以通过命令终端直接执行也可通过idea直接调用。如果配置了环境变量就可以通过终端直接执行.1、查看版本号:PSC:\Users\Administrator\Desktop>jpackage--version  21.0.1PSC:\Users\Administrator\Deskt......
  • Tech Lead 要学会戴着镣铐跳舞
    这不是一篇讨喜的文章,至少不会是你常常看到的例如《成为优秀TechLead的六个建议》令人欢欣鼓舞的那一类。今天我们聊聊TechLead所面临的不那么轻松的现实问题程序员一定会有类似的体验:学习技术的过程中首先会经历蜜月期,例如总有新的知识点有待你挖掘,你会觉得它无所不能;也逃......
  • Navicat 破解版安装教程_永久激活,亲测好用
    Navicat16破解版安装教程_激活码分享今天给大家分享一波Navicat16的破解版安装教程,通过激活工具一键生成激活码,输入Navicat即可完成激活,无图无真相,下面是我破解成功的截图:Navicat16破解激活成功截图废话少说,下面演示如何永久激活Navicat16。一、Navicat简介Nav......
  • 《初学C语言第8天》
    ////代码调试——调用堆栈//#include<stdio.h.>//voidtest2()//{// printf("hehe");//}//voidtest1()//{// test2();//}//voidtest()//{// test1();//}//intmain()//{// test();// return0;//}////研究程序死循环的原因//#include<stdio.h>//#in......
  • 无涯教程-MySQL Group By Clause函数
    您可以使用GROUPBY对一列中的值进行分组,并且,如果需要,可以对该列进行计算。您可以在分组列上使用COUNT,SUM,AVG等功能。要了解GROUPBY子句,请考虑一个employee_tbl表,该表具有以下记录-mysql>SELECT*FROMemployee_tbl;+------+------+------------+-----------......
  • cmd与bat批处理脚本入门
    字符串替换@echooffseta1=你是good好孩子::去掉goodsetres=%a1:good=%echo%res%::把变量a1中的"你"替换为"她们"setres=%a1:你=她们%echo%res%pause字符串截取@echooffsetmyvar=abcdefgechoOriginal:%myvar%echo索引1开始,长度3: %myvar:~1,3%echo索......