首页 > 其他分享 >评分卡建模学习(一)————数据预处理part.3

评分卡建模学习(一)————数据预处理part.3

时间:2024-11-29 22:33:53浏览次数:9  
标签:结构化 存储 建模 开源 part.3 文本 数据 预处理

目录

六、数据处理的思路及代码

(一)对缺失值的处理:在我这个数据预处理的part.1板块

(二)对异常值的处理:在我这个数据预处理的part.2板块

(三)数据归一化、标准化:在我这个数据预处理的part.2板块

(四)非结构化数据转变


风控建模学习笔记,按照学习情况进行总结,希望各位大佬批评指正,让我这个小白快速进步!!

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

———————————————————————————————————————————

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

六、数据处理的思路及代码

(一)对缺失值的处理:在我这个数据预处理的part.1板块

(二)对异常值的处理:在我这个数据预处理的part.2板块

(三)数据归一化、标准化:在我这个数据预处理的part.2板块

(四)非结构化数据转变

1、什么是非结构化数据

非结构化数据是指没有固定格式或组织方式的数据。这类数据通常不遵循特定的数据模型或结构,因此难以通过传统的数据库管理系统进行存储、查询和管理。与结构化数据(如数据库中的表格数据)相比,非结构化数据更为复杂和多变,常见的非结构化数据类型包括:

(1)文本数据:如电子邮件、报告、文章、社交媒体帖子等。

(2)多媒体数据:如图像、音频、视频文件等。

(3)文档数据:如PDF文件、Word文档、演示文稿等。

(4)传感器数据:如来自物联网设备的原始数据。

(4)通讯记录:如短信、即时消息等。

2、如何处理非结构化数据

(1)数据采集:首先需要收集非结构化数据。这可能涉及从不同的来源和格式中提取数据,例如社交媒体、电子邮件、日志文件、传感器等。

(2)数据存储:非结构化数据通常存储在非关系型数据库(如NoSQL数据库)或专用的数据湖中,这些系统可以处理大量不同格式的数据。

(3)数据预处理:在分析之前,需要对数据进行清洗和预处理,包括:

①数据清洗:去除无关数据、纠正错误、处理缺失值。

②数据转换:将数据转换为统一的格式,以便进一步处理。

③数据标注:对于某些类型的数据(如文本或图像),可能需要人工标注来提供训练数据。 

(4)数据分析:使用以下方法分析数据:

①文本分析:使用自然语言处理(NLP)技术来理解文本数据,包括情感分析、主题建模、关键词提取等。

②图像和视频分析:使用计算机视觉技术来识别图像中的对象、场景和行为。语音分析:使用语音识别技术将语音转换为文本,然后进行分析。机器学习:训练模型来识别模式、预测结果或进行分类。

③数据挖掘:从大量非结构化数据中提取有价值的信息和知识。这可能涉及模式识别、关联规则学习、聚类等。

④数据可视化:将分析结果以图表、图形或其他可视化形式展示,以便更容易理解和交流。

3、可以处理非结构化数据的工具

(1)数据存储和管理:

①Hadoop HDFS: 分布式文件存储系统,用于存储大量数据。②Amazon S3: 云存储服务,用于存储和检索大量数据。③Azure Data Lake Storage: 用于大数据分析的高性能、可扩展的存储解决方案。④Google Cloud Storage: 用于在线数据存储和检索的服务。⑤NoSQL数据库: 如MongoDB、Cassandra、Redis等,适合存储非结构化或半结构化数据。

(2)数据处理和转换:

①Apache Spark: 用于大规模数据处理的开源框架,支持批处理和实时数据流处理。②Apache Flink: 用于流处理和批处理的开源平台。③Apache NiFi: 用于自动化系统间的数据流的开源平台。④Dataflow (Google Cloud): 用于构建和运行数据处理流水线的服务。

(3)文本分析和自然语言处理 (NLP):

Apache Lucene/Solr: 用于全文搜索的库和搜索引擎。②Elasticsearch: 分布式、RESTful搜索和分析引擎。③Google Cloud Natural Language API: 提供文本分析服务,包括情感分析、实体识别等。④Amazon Comprehend: 自然语言处理服务,可以识别文本中的实体、情绪、主题等。

(4)图像和视频分析:

OpenCV: 开源计算机视觉库。②TensorFlow: 开源的机器学习框架,适用于图像识别和视频分析。③PyTorch: 另一个开源的机器学习库,广泛用于计算机视觉任务。④Google Cloud Vision API: 提供图像识别服务,包括对象检测、文本识别等。

(5)语音分析和识别:

CMU Sphinx: 开源的语音识别系统。②Kaldi: 开源的语音识别研究工具包。③Google Cloud Speech-to-Text: 将语音转换为文本的服务。④Amazon Transcribe: 自动语音识别服务。

(6)数据挖掘和机器学习:

scikit-learn: 用于数据挖掘和数据分析的Python库。②R: 统计分析和图形的编程语言和软件环境。③Weka: 数据挖掘的机器学习算法集合。④XGBoost: 提供梯度提升框架的库,用于机器学习任务。

(7)数据可视化:

Tableau: 数据可视化工具,用于创建交互式图表和仪表板。②Power BI: 由Microsoft开发的业务分析服务,用于数据可视化和报告。③QlikView/Qlik Sense: 数据分析和可视化平台。

————————————————————————————学到这一块的时候,查了相关资料才发现这一块目前根本没有了解过,等后面面慢慢接触的时候再进行系统的准备把!

标签:结构化,存储,建模,开源,part.3,文本,数据,预处理
From: https://blog.csdn.net/Morven_dai/article/details/144146870

相关文章

  • 数据预处理方法—特征选择、特征缩放、特征构造
    特征选择1.1原理特征选择是选择对模型训练最重要的特征,减少数据维度,去除冗余或不相关特征,提高模型性能的性能和训练速度,减少过拟合。1.2核心公式 可以使用基于树模型的特征重要性度量,如在随机森林中计算特征的重要性:其中,Ii,j是第j棵树中特征Xi的重要性度量。假设使......
  • C语言进阶7:程序环境与预处理
    本章重点程序的翻译环境程序的执行环境详解:C语言程序的编译+链接预定义符号介绍预处理指令#define宏和函数的对比预处理操作符#和##的介绍命令定义预处理指令#include预处理指令#undef条件编译1.程序的翻译环境和执行环境在ANSIC的任何一种实现中,存在两个不同的环境......
  • (转)数仓建模—ID Mapping
    https://mp.weixin.qq.com/s/c9PI9Aj8IU023ktQXZgBDA?spm=a2c6h.12873639.article-detail.5.572763120dqNXJ早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖......
  • MySQL Workbench 数据库建模详解:从设计到实践
    目录数据库建模基础概念MySQLWorkbench简介与安装什么是MySQLWorkbench?安装与环境配置MySQLWorkbench数据库建模功能详解EER图(实体关系图)数据库反向工程数据库正向工程模型同步与版本管理MySQLWorkbench数据库建模实战教程创建新模型定义表结构设置关系与约......
  • 预处理详解
    1.预定义符号2.#define定义常量3.#define定义宏4.带有副作⽤的宏参数5.宏替换的规则6.宏函数的对⽐7.#和##8.命名约定9.#undef10.命令⾏定义11.条件编译12.头⽂件的包含13.其他预处理指令1.预定义符号C语言设置了一些预定义的符号,可以直接使用,预定......
  • 编程之路,从0开始:预处理详解(完结篇)
            Hello大家好!很高兴我们又见面啦!给生活添点passion,开始今天的编程之路!我的博客:<但凡.我的专栏:编程之路        这一篇预处理详解是我们C语言基础内容学习的最后一篇,也是我们的专栏:编程之路的最后一篇!从今日起,我将不定期更新新的内容,开始新的章节......
  • 图片预处理技术介绍4——降噪
    图片预处理  大家好,我是阿赵。  这一篇将两种基础的降噪算法。  之前介绍过均值模糊和高斯模糊。如果从降噪的角度来说,模糊算法也算是降噪的一类,所以之前介绍的两种模糊可以称呼为均值降噪和高斯降噪。不过模糊算法对原来的图像特征的减弱性太强,我们想在降噪......
  • 编译预处理程序
    1.#include指令#include<文件名>在C++安装目录的include子目录下寻找<>中标明的文件,通常叫做按标准方式搜索。#include"文件名"先在当前目录,即当前工程的目录中寻找""中标明的文件,若没有找到,则按标准方式搜索。2.#define和#undef指令#define可以定义符号常量,比如,#define......
  • 快手观看时长建模:CREAD
    将观看时长作为连续值预测,会带来“回归问题”,即会放大对异常值和潜在预测偏差的敏感性,常见的一种方法是把时长分段转为分类问题来预估,CREAD正是提出了一种回归转分类的处理方法。CREAD的流程如下图所示,把观看时长分为M个桶,在每个桶内预估P(y>t|x)的概率 经过推导可以得到最后......
  • 【数据挖掘】一、基于LDA的用户兴趣建模(兴趣标签生成模型)--用户兴趣挖掘模型
    说明        本文的数据集来源于英雄联盟评论数据集,旨在挖掘英雄联盟评论数据中的主题兴趣标签。本次实验是基于LDA模型实现用户的兴趣建模,即从英雄联盟评论数据中生成用户感兴趣的标签。                本文是基于英雄联盟的评论数据集,采用基于......