numpy pytorch mindspore
import numpy as np
def zscore(x,axis=None):
xmean = x.mean(axis=axis, keepdims=True)
xstd = np.std(x,axis=axis,keepdims=True)
zscore = (x-xmean)/xstd
return zscore
###说明
指定如何加,不同软件和框架有默认或者隐式处理
维度-把上一个维度当作自己的元素
仅仅定义axis=0的numpy求和,和数学中的求和是不一样的!
仅仅指定axis,numpy.sum会沿着这个维度求和没错,但是同时也把这个维度消灭了!.维度被消灭了,所以结果少了一维。
那么正确方式是什么呢?——添加keepdims=True这个参数
数据处理
<隐式操作-对用户透明>
不同软件和框架有默认或者隐式处理
判断:
is
file type
动作:
数据动作
增: add put fill push
删: drop delete remove clear trim
改: update
类型转换 transform
查: select find whereis
流程动作:action transformation
输入、输出 throw source sink MEMORY cache persist checkpoint
遍历: for in; foreach map
过滤: filter
组合: zip
展开: flatten
其他: flatMap
广播: Broadcast
窗口: window
参数: Parameter config
规约: fold reduce
分组: group groupByKey Partitions coalesce repartition
聚合: aggragate
数据概念
01.映射与遍历 map flatMap foreach Iterator flatten filter filterNot filterKeys mapValue
02.规约与聚合 fold reduce aggregate max min
03.混洗 shuffle
04.分区和分组 partition groupBy grouped
05.数据变换 zip unzip zipWithIndex concat toArray toList collect range
06.逻辑判断 empty isEmpty contains containsSlice
07.查看-查找 head tail last init take drop slice size count find apply
indexOf lastIndexOf indexWhere lastIndexWhere indexOfSlice lastIndexOfSlice
startsWith endsWith
08.其他重要 drop dropWhile take takeWhile
排序: sorted sortWith sortBy
去重: distinct
集合操作: diff union intersect
insert append
add remove clear
put remove clear update keys keySet values
trim
pop push update clear top
get getOrElse
09.其他不常见: 转置 transpose 反转 reverse 转换 transform
mkString addString stringPrefix copyToArray clone
填充 fill 滑动 sliding
数据库-SQL以及DataFrame与Pandas 以及excel
增删改查
索引 分片 slice
组合 : union / concat
联合 :join pd.merge()
分组: group goupBy
形式和维度: stack unstack melt pivot
数学运算: 算数运算 逻辑运算 代数运算 初等函数运算
线性代数-矩阵运算
统计运算
apply
表格数据 : 聚合意味着这个轴将坍缩(折叠),之所以会坍缩,就是因为执行了“约减”操作
pivot不能处理index和columns组合是重复的数据,但是pivot_table可以处理
pivot 函数只有三个参数:index 用于指定索引,columns用于指定列,values用于指定透视的数值
pivot_table有四个最重要的参数 index、values、columns、aggfunc
melt 融合数据,把宽格式转换为长格式
参数id_vars表示ID变量,value_vars表示值变量,
var_name用于指定id变量的列名,value_name用于指定值变量的列名。
计算、分类、筛选、查找
Excel: 处理数据常用的两大利器就是VLOOKUP和透视表
数据透视表 -- 报表=多种格式+动态数据
透视表是一种可以对数据动态排布并且分类汇总的表格格式
透视表:
Excel:插入->数据透视表
Python:
data = pd.pivot_table(data,
index=['X','XX'], #行
columns=['Y','YY'], #列
values=['Z','ZZ'], #值
aggfunc=[np.sum,np.mean,len], #汇总 均值 计数
margins=True) #汇总信息 不需要汇总 False
内容匹配:
Excel:=vlookup(lookup_value,table_array,col_index_num,range_lookup)
Python:data = pd.merge(data1, data2, how='left', on=['XXX','YYY'])
处理数据新方式
Large Language Model(LLM)
Transformer 带来AI+艺术,从语言开始遇到多模态,碰撞艺术火花
原理化研发 前瞻化设计 高效化仿真 精细化检测
智能化调控 科学化运维
预训练(Pre-training)、微调(Fine-tuning)和提示(Promoting)的角度
pre-training : Masked Language Model和Next Token Prediction
Fine-tuning :微调方法:全量模型微调和参数高效的微调方法
微调: In-context learning、Prompt tuning和Instruction tuning
prompt
随着竞争到后期,技术的鸿沟被抹平,数据会成为最重要的战略资源,
尤其是专业领域里的高质量私域数据,更是稀缺资源,
还涉及数据资产的采集、产权、安全隐私等问题。
国外
人工智能生成内容(AIGC)--生成模型
DALL·E、Midjourney、Stable Diffusion等文本生成图
OpenAI最新发布的多模态预训练大模型 GPT-4
CLIP (Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是
OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型
CLIP是一种基于对比学习的多模态模型-多模态神经网络,它能有效地借助自然语言的监督来学习视觉的概念
Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)
https://github.com/OpenAI/CLIP
OpenAI作为业界领先机构已发布语言类大模型ChatGPT(2022)和GPT-4(2023)、语音大模型Whisper(2022)、视觉大模型DALL-E(2021),
微软将GPT-4相关能力整合入Windows 11系统、office365、Bing等重点产品形成Copilot系列应用;
微软 Microsoft 365 Copilot
苹果开源的-不可商用
https://github.com/apple/ml-ferret
谷歌于2023年12月6日发布的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息
谷歌推出多模态大模型Gemini(2023)
Meta发布语言大模型LLaMA(2023)
国内
产业端实战
百度、阿里、还是腾讯、华为
研究院: 2021年3月由智源研究院发布的“悟道1.0”。
2021年 华为基于昇腾 AI 与鹏城实验室联合发布了鹏程盘古大模型
2022年3月16日 百度发布文心一言,成为中国第一个类ChatGPT产品。
2022年9月 阿里发布了“通义”大模型系列,包含NLP大模型AlicMind、视觉大模型CV,多模态大模型M6 通义千问
太乙模型,首个开源的中文Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练
应用
云端API服务
特定垂直领域的解决方案
办公类的Microsoft Pilot,社交类的CallAnnie
利用:
恐惧来自于被时代抛弃的风险,热情则来自于科技企业内嵌的、对创新的追求
重复造轮子的游戏不会一直持续下去,因为所需的原材料实在是太多,也太贵了,而且并非每个国家都能得到,并非每个企业都能支付高昂的价格
从训练成本到运营成本的转变
标签:模态,map,agg,模型,merge,维度,pivot,数据,axis
From: https://www.cnblogs.com/ytwang/p/17932525.html