首页 > 其他分享 >数据处理动作——增删改查输入输出-map-flattern-agg-concat-merge

数据处理动作——增删改查输入输出-map-flattern-agg-concat-merge

时间:2023-12-28 13:46:19浏览次数:33  
标签:模态 map agg 模型 merge 维度 pivot 数据 axis

numpy pytorch mindspore

import numpy as np

def zscore(x,axis=None):
    xmean = x.mean(axis=axis, keepdims=True)
	xstd = np.std(x,axis=axis,keepdims=True)
	zscore = (x-xmean)/xstd
	return zscore
###说明
     指定如何加,不同软件和框架有默认或者隐式处理
	 维度-把上一个维度当作自己的元素
    仅仅定义axis=0的numpy求和,和数学中的求和是不一样的!
	仅仅指定axis,numpy.sum会沿着这个维度求和没错,但是同时也把这个维度消灭了!.维度被消灭了,所以结果少了一维。
    那么正确方式是什么呢?——添加keepdims=True这个参数

数据处理

 <隐式操作-对用户透明>
 不同软件和框架有默认或者隐式处理

判断:

   is
   file type	   

动作:

数据动作

   增: add  put  fill  push
   删: drop delete  remove clear  trim
   改: update 
        类型转换  transform
   查: select find  whereis 

流程动作:action transformation

  输入、输出 throw   source  sink   MEMORY	 cache  persist checkpoint
  遍历: for in; foreach map
  过滤: filter	
  组合: zip
  展开: flatten	
  其他: flatMap	
  广播: Broadcast 
  窗口: window	
  参数: Parameter config  
  规约: fold reduce
  分组: group  groupByKey  Partitions coalesce repartition
  聚合: aggragate 	  

数据概念

01.映射与遍历 map   flatMap  foreach  Iterator  flatten filter filterNot  filterKeys mapValue
02.规约与聚合  fold  reduce  aggregate  max  min
03.混洗       shuffle 
04.分区和分组  partition  groupBy  grouped
05.数据变换  zip unzip  zipWithIndex concat   toArray toList  collect range
06.逻辑判断  empty  isEmpty contains containsSlice
07.查看-查找 head tail  last init take drop  slice  size  count  find apply 
            indexOf lastIndexOf indexWhere  lastIndexWhere  indexOfSlice  lastIndexOfSlice
            startsWith endsWith
08.其他重要 drop dropWhile  take takeWhile
            排序: sorted sortWith sortBy 
            去重: distinct
            集合操作: diff  union intersect
            insert append
            add  remove clear  
            put  remove  clear   update  keys keySet values 
            trim
            pop push  update clear top
            get getOrElse
 09.其他不常见: 转置 transpose  反转 reverse  转换 transform
                 mkString addString stringPrefix  copyToArray clone
    填充 fill 滑动 sliding

数据库-SQL以及DataFrame与Pandas 以及excel

 增删改查
  索引 分片 slice 
  组合 : union / concat  
  联合 :join pd.merge()
  分组: group goupBy
  形式和维度: stack unstack melt pivot
  数学运算: 算数运算 逻辑运算 代数运算 初等函数运算	
            线性代数-矩阵运算
            统计运算
  apply 
  表格数据	: 聚合意味着这个轴将坍缩(折叠),之所以会坍缩,就是因为执行了“约减”操作
    pivot不能处理index和columns组合是重复的数据,但是pivot_table可以处理
     pivot 函数只有三个参数:index 用于指定索引,columns用于指定列,values用于指定透视的数值
	
    pivot_table有四个最重要的参数 index、values、columns、aggfunc		
	 
   melt 融合数据,把宽格式转换为长格式
     参数id_vars表示ID变量,value_vars表示值变量,
	 var_name用于指定id变量的列名,value_name用于指定值变量的列名。		 
  
计算、分类、筛选、查找  
 
Excel: 处理数据常用的两大利器就是VLOOKUP和透视表
 数据透视表 -- 报表=多种格式+动态数据
    透视表是一种可以对数据动态排布并且分类汇总的表格格式
透视表:

   Excel:插入->数据透视表
   Python:
   data = pd.pivot_table(data,
       index=['X','XX'],   #行
       columns=['Y','YY'], #列
       values=['Z','ZZ'], #值
       aggfunc=[np.sum,np.mean,len], #汇总 均值 计数
       margins=True) #汇总信息 不需要汇总 False	
	
内容匹配:
   Excel:=vlookup(lookup_value,table_array,col_index_num,range_lookup)
   Python:data = pd.merge(data1, data2, how='left', on=['XXX','YYY'])	

处理数据新方式

 Large Language Model(LLM)
 Transformer 带来AI+艺术,从语言开始遇到多模态,碰撞艺术火花
    原理化研发 前瞻化设计 高效化仿真 精细化检测
	智能化调控 科学化运维
预训练(Pre-training)、微调(Fine-tuning)和提示(Promoting)的角度
   pre-training : Masked Language Model和Next Token Prediction
   Fine-tuning  :微调方法:全量模型微调和参数高效的微调方法
   微调: In-context learning、Prompt tuning和Instruction tuning
 prompt 
  随着竞争到后期,技术的鸿沟被抹平,数据会成为最重要的战略资源,
    尤其是专业领域里的高质量私域数据,更是稀缺资源,
    还涉及数据资产的采集、产权、安全隐私等问题。	 

国外

人工智能生成内容(AIGC)--生成模型	
    DALL·E、Midjourney、Stable Diffusion等文本生成图
OpenAI最新发布的多模态预训练大模型 GPT-4   
 CLIP (Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 
      OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型
	   CLIP是一种基于对比学习的多模态模型-多模态神经网络,它能有效地借助自然语言的监督来学习视觉的概念
	  Learning Transferable Visual Models From Natural Language Supervision (ICML 2021) 
       https://github.com/OpenAI/CLIP
	OpenAI作为业界领先机构已发布语言类大模型ChatGPT(2022)和GPT-4(2023)、语音大模型Whisper(2022)、视觉大模型DALL-E(2021),
	微软将GPT-4相关能力整合入Windows 11系统、office365、Bing等重点产品形成Copilot系列应用;

微软		   Microsoft 365 Copilot
苹果开源的-不可商用
    https://github.com/apple/ml-ferret
谷歌于2023年12月6日发布的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息	
   谷歌推出多模态大模型Gemini(2023)     
Meta发布语言大模型LLaMA(2023) 

国内

  产业端实战
     百度、阿里、还是腾讯、华为
  研究院: 2021年3月由智源研究院发布的“悟道1.0”。
     2021年         华为基于昇腾 AI 与鹏城实验室联合发布了鹏程盘古大模型
     2022年3月16日  百度发布文心一言,成为中国第一个类ChatGPT产品。
     2022年9月      阿里发布了“通义”大模型系列,包含NLP大模型AlicMind、视觉大模型CV,多模态大模型M6	通义千问	 
 太乙模型,首个开源的中文Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练 	

应用

 云端API服务
  特定垂直领域的解决方案
     办公类的Microsoft Pilot,社交类的CallAnnie
利用:
   恐惧来自于被时代抛弃的风险,热情则来自于科技企业内嵌的、对创新的追求
重复造轮子的游戏不会一直持续下去,因为所需的原材料实在是太多,也太贵了,而且并非每个国家都能得到,并非每个企业都能支付高昂的价格
 从训练成本到运营成本的转变	

标签:模态,map,agg,模型,merge,维度,pivot,数据,axis
From: https://www.cnblogs.com/ytwang/p/17932525.html

相关文章

  • Lombok,Swagger,Jackson中的注解汇总
    Lombok相关(通过注解的方式,在编译时自动为属性生成构造器、getter/setter、equals、hashcode、toString方法):#maven添加依赖或下载jar包:<dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.16.20</version>......
  • 无涯教程-Java泛型 - 映射(Map)
    Java在Map接口中提供了泛型支持。GenericMap-语法Map<T>map=newHashMap<T>();map-Map接口的对象。T   -集合声明期间传递的泛型类型参数。T是传递给泛型接口Map及其实现类HashMap的类型参数。packagecom.learnfk;importjava.util.HashMap;importj......
  • Oracle 中 LISTAGG 函数的介绍以及使用
    LISTAGG函数介绍listagg函数是Oracle11.2推出的新特性。其主要功能类似于wmsys.wm_concat函数,即将数据分组后,把指定列的数据再通过指定符号合并。LISTAGG使用listagg函数有两个参数: 1、要合并的列名 2、自定义连接符号☆LISTAGG函数既是分析函数,也是聚......
  • C++STL常用关联式关联容器(set/multiset , map/multimap)
    2.1set/multiset容器2.1.1set基本概念简介:所有元素都会在插入时自动被排序本质:set/multiset属于关联式容器,底层结构是用二叉树实现。set和multiset区别:set不允许容器中有重复的元素multiset允许容器中有重复的元素2.1.2set构造和赋值功能描述:创建set容器以及赋值构造:set<T>st......
  • 程序员学习网站推荐:路线向导(roadmap.sh)
    网站地址:https://roadmap.sh/在外网的技术论坛上看到这个网站,上面给出多种编程语言的学习路线,也就是给出不同编程语言的从易到难的组成内容(语言特性),通过这个网站可以辅助学习编程语言。比如学习python语言:这个网站并不能给出你不同编程语言的具体学习内容,但是它会给出......
  • Swagger Editor 实操指南:打造优质 API 文档
    在API开发的领域中,Swagger以其卓越的使用效率与便捷性,备受开发者欢迎。它是一个强大的接口设计工具,允许开发人员对 RESTfulAPI 进行高效的设计、构建及测试工作。本文旨在深入探讨其中一个子工具——SwaggerEditor的使用介绍及它的有点。SwaggerEditor是一个基于开源的在......
  • Highcharts- maps 地图点和线的定义
    需求地图点和线通过经度和纬度的点或数组添加到地图中。自v10以来的Highcharts地图使用GeoJSON定义来定义点和线串:geometry分析与解决地图点定义:对于地图点数据点,速记点配置是直接在选项中设置和属性。Lonlat{type:'mappoint',data:[{lon:4.90,......
  • Generalised f-Mean Aggregation for Graph Neural Networks
    目录概符号说明GenAgg代码KortvelesyR.,MoradS.andProrokA.Generalisedf-meanaggregationforgraphneuralnetworks.NIPS,2023.概基于MPNN架构的GNN主要在于aggregator和updatefunction两部分,一般来说后者是参数化的主要方式.本文提出一种新的参数......
  • swagger报错Unable to render this definition
    问题描述:访问swagger时,报错endofthestreamoradocumentseparatorisexpected,UnabletorenderthisdefinitionTheprovideddefinitiondoesnotspecifyavalidversionfield.PleaseindicateavalidSwaggerorOpenAPIversionfield.Supportedversionfields......
  • 最新SQLMap安装与入门技术
    SQLMap详解SQLMap是一个自动化的SQL注入工具,其主要功能是扫描、发现并利用给定URL的SQL注入漏洞。SQLMap内置了很多绕过插件,支持的数据库是MySQL、Oracle、PostgreSQL、MicrosoftSQLServer、MicrosoftAccess、IBMDB2、SQLite、Firebird、Sybase和SAPMaxDB。SQLMap采用了以下......