首页 > 其他分享 >上市公司绿色专利申请数据计算(requests插件的巧用)

上市公司绿色专利申请数据计算(requests插件的巧用)

时间:2023-08-17 11:11:59浏览次数:48  
标签:插件 para get text div print 专利申请 requests fo

需求:

工作中需要计算上市公司绿色专利申请数据,需要从先搜索表单值,然后进行匹配和请求,最后需要分析汇总,用于后续的深度数据挖掘。

解决:

python中的三大插件,即requests、Beautifulsoup4、lxml的灵活运用,可直接对表单值进行提取、匹配,并进行统计分析

import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_status() #r.encoding = 'utf-8' return r.text except: return "" def getContent(url): html = getHTMLText(url) # print(html) soup = BeautifulSoup(html, "html.parser") title = soup.select("div.hd > h1") print(title[0].get_text()) time = soup.select("div.a_Info > span.a_time") print(time[0].string) author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor") print(author[0].get_text()) paras = soup.select("div.Cnt-Main-Article-QQ > p.text") for para in paras: if len(para) > 0: print(para.get_text()) print() #写入文件 fo = open("text.txt", "w+") fo.writelines(title[0].get_text() + "\n") fo.writelines(time[0].get_text() + "\n") for para in paras: if len(para) > 0: fo.writelines(para.get_text() + "\n\n") fo.writelines(author[0].get_text() + '\n') fo.close() #将爬取到的文章用字典格式来存 article = { 'Title' : title[0].get_text(), 'Time' : time[0].get_text(), 'Paragraph' : paras, 'Author' : author[0].get_text() } print(article) def main(): url = "http://news.qq.com/a/20170504/012032.htm" getContent(url); main()

数据来源: 上市公司绿色专利申请数据

标签:插件,para,get,text,div,print,专利申请,requests,fo
From: https://www.cnblogs.com/idatawork/p/17637103.html

相关文章

  • idea实用插件
    mybatisX可以让mapper和mapper.xml来回切换Mavenhelper以查看maven依赖的插件,可以展示pom文件中的依赖(以列表或树的形式),可以使用此插件查看maven依赖是否有冲突。安装完成后打开pom底部会多一个dependencyanalyzer*RefreshUI刷新并获取依赖*Reimport重新加载并导......
  • Obsidian多端同步,无需插件
    官方同步方案(付费)开通链接在:账户,具体方法参考官方文档:Obsidian同步服务byob官方。优点:省心易用稳定。缺点:贵,10美元/月,年付8美元/月(教育认证打六折,详见第一个链接)。打折渠道:教育认证:六折,详见第一个链接;拼团:购买官方同步服务后,一个账号可以创建5个仓库,可以5个人共用一个账......
  • 十问Huawei Cloud Toolkit:开发插件如何提升云上开发效能
    本文分享自华为云社区《【云享问答】第2期十问HuaweiCloudToolkit:开发插件如何提升云上开发效能》,作者:华为云社区精选。众所周知,桌面集成开发环境(IDE)已经融入到开发的各个环节,对开发者的重要性和广泛度是不言而喻的,而开发插件更是建立在IDE基础上的功能Buff。HuaweiCloudTo......
  • Jmeter 安装自定义插件
    1.下载PluginsManager下载地址:https://jmeter-plugins.org/install/Install/2.将下载的jar包复制到JMeter中的lib\ext目录下3.打开jmeter->选项->PluginsManager->availableplugins->搜索CustomThreadGroups插件->勾选->点击ApplyChangesandRestartJmeterInstalledPl......
  • FL Studio发布21.1新版!新增Hyper Chorus插件及自动更新功能
    很高兴地宣布在去年12月发布重大版本更新后,FLStudio在2023年8月正式更新到21.1版。本次更新虽然只是维护性质,但我们还是为大家带来了一些全新的功能,包括通过钢琴卷中的音阶捕捉和自定义音符工具,引入更快、更有创意的音符编辑。彩色波形,更好地管理采样。极致的合唱插件"HyperChor......
  • 【Flutter】Android Studio 安装Flutter插件
    安装【Dart】和【Flutter】插件。 ......
  • grafana报错too many outstanding requests
    grafana报错toomanyoutstandingrequests1、问题描述当grafana使用loki作为数据源查询数据时,面板报错toomanyoutstandingrequestsloki的版本是2.8.0报错截图2、解决办法loki的配置文件中添加下面这两行query_scheduler:max_outstanding_requests_per_tenant:1000......
  • 由mysql rewrite插件带来的8.0升级问题及解决方案
    一、问题发生在客户现场遇到一个语句,走mysql的执行计划,总是不能达到预期的join顺序,需手动执行straightjoin。为了让sql能够自动转换,想到了5.7开始支持的rewriterplugin,于是在测试环境测试了一把(结果发现只能做一些简单的查询重写,稍微复杂的多表关联,总是匹配不成功,这个按下不表,......
  • EXP 一款 Java 插件化热插拔框架
    EXP一款Java插件化热插拔框架前言多年以来,ToB的应用程序都面临定制化需求应该怎么搞的问题。举例,大部分本地化软件厂家,都有一个标准程序,这个程序支持大部分企业的功能需求,但面对世界500强等大客户时,他们的特殊需求,厂家通常是无法拒绝的(通常因为订单大,给的多,可背书)。比如......
  • Python分享之requests(1)
    1、模块说明requests是使用Apache2licensed许可证的HTTP库。用python编写。比urllib2模块更简洁。Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。在python内置模块的基础上进行了高度的封装,从而......