前言
介绍一下数据科学
在IBM(国际商用机器公司)官网上对数据科学的解释是数据科学将数学和统计学、专业编程、高级分析,人工智能和机器学习与特定主题专业知识相结合,获取隐藏在组织数据中的切实可行的洞察。这些洞察可用于指导决策和战略规划。
关于数据科学,我十分喜欢在中国人民大学信息资源管理学院里面写的一句话
以数据赋能社会,以历史预见未来
数据科学是个应用十分广泛的技术领域,尤其在计算机领域和金融领域,对人工智能,金融科技,机器学习(深度学习)感兴趣的同学们都可以了解一下ds(data science)这一个十分有趣的领域,在某些方面与ML有些异曲同工之妙,在刚刚所提到领域的小伙伴们都可以了解一下,说不定对自己的研究有些新的思路和发现,当然不是刚刚所提领域同学们也可以了解有些ds,这也能帮助我们拥有一个多元融合,跨学科交叉的思维,也有利于我们未来的发展以及对事物发展的看法,总之,希望大家能提起对ds的兴趣,以及进一步了解ds。同时我之所以学习学习ds,也是兴趣所驱动,并没有科研压力和学习压力,也希望大家能放轻松来学习,提起兴趣。
jupyuter notebook
小伙伴们,今天我们来讲讲数据科学的入坑必走之路,讲讲jupyter notebook的安装使用及在jupyter notebook上调用numpy数据库的一些基本操作,里面主要涉及到到了在数据科学领域无处不在的数组和矩阵,感兴趣的小伙伴们可以停下脚步来看看哈。
关于jupyter notebook,这是很多ds课第一节课要讲的东西,怎么去安装呢,我是在anaconda上面download了一个安装包,再用cmd(指示命令符)通过输入下面的内容来实现的
python --version
这一句话呢,是让你的pc来告诉你,你python的版本(ps:过低的版本是没有办法去实现的喔)
如果你python的版本已经到了3.X.X的时候,我们就可以输入以下内容了
pip install jupyter notebook
然后在cdm中再次输入jupyter notebook
这时候cmd中就会出现这个页面了,一般来讲这时候是会跳到jupyter notebook的页面的,如果没有,也没有关系,我们可以通过复制最cmd中最后几行中出现的网站进行copy,从而进入到jupyter notebook上面的页面。
打开以后就会跳出这个页面,这时候我们去点击new这个按钮,找到python3这个选项,打开一个新的文件,可能有的同学在这个环节找不到python3(当jupyter提示到找不到kernel时),莫急,这时候我们再次拿出的cmd神器,在输入出输入以下指令
python -m pip install ipykernel
这个指令是来安装ipkernel包的
针对当前用户安装ipkernel,这时候我们输入下面这一个指令即可:
python -mipykernel install --user
紧接着,我们再次用cmd调出jupyter notebook,这时候在jupyter notebook上就应该可以看见python3这一个选项啦。
jupyter notebook怎么用
对文件的管理
在home页里面,我们可以多选或者部分选择文件
当我们选中某一个文件的时候,我们就可以对该文件进行重命名和删除。
基本使用
如果你用的是coursea上的notebook,那么你可以根据coursea上的指示去实现,如果不是,你可以跟着我来
我们去点击Untitled1这里时,我们就可以对文件进行重新的命名,如下图所示
我们今天先教大家数组,因此大家可以先输入array来对该文件进行命名。
代码
不过在教大家array前,我们先讲讲hello world的实现,看到这里,有的同学可能就会笑了,不就是hello world吗,在这里还真不一样。
试过的同学可能已经发现啦,在键盘上输入enter后尽然在换行,而不是去实现我们的功能,那怎么才能实现呢,这时候,你需要按住shift键,再去按enter
我们还可以按上面的运行符进行实现该操作。
在头顶的位置,我们可以选择模式哈,现在我们来写个标题
我们先把模式调到markdown,再输入下面的指令
# 哈哈,今天真开心,又学会了jupyter notebook啦
我们来跑一下
这样我们又写了一个标题啦
numpy数据库的调用
list
来现在,我们讲讲array怎么实现
首先,我们导入numpy这一个数据库,如下指令一样
我们解释一下这句话是什么意思,在这里,我们导入了numpy这个数据库,并把numpy命名为np(这是大多数数据科学家的习惯做法,为了代码的可读性,我们也这样写)
如果没有下载numpy的小伙伴可以再次打开cmd,输入下面的指令
pip install numpy
就可以了
通过这样的方式,我们创建了第一个列表,并成功地将其打印出来了
在这里,可能有的同学不能像我这样进行换行,我给大家讲讲吧,我们只需同时按住enter键和shift键即可实现。
array
通过利用numpy里有的函数,我们可以将刚刚的列表转化成数组(array),这是一个一维数组,我们也可以生成一个二维的数组,如下
注意哈,这里多了一个中括号
通过上面的shape(看其为几乘几的array),size(查看里面究竟有几个数),dtype(查看其中的数据类型)
在dtype上,我们要进行了一个对比,一个是纯整数类型的,一个是整数类型和浮点数结合的一个数组,我们不难发现,在这里,它和其他编译语言一样,选择了最能容载的数据类型。
接下来,我们讲讲切片问题
调用numpy数据库时候,和python的切片一样,在np.arrange(X,Y,Z)中,X的意思是首项开始的地方,Y的意思是最后一项(最后一项不算),Z是步数。(如有不懂可以看上面的对比)
如果我们不规定步数又会怎么样
它的步数会自动调成1
上面是来生成0的矩阵,上面第一个是一维的,第二是生成几×几的array。
我们亦可以通过eye(X)来生成X乘X的单位向量。
有细心的小伙伴可能已经发现了,这些数据都是带小数点,那我们来看看这鞋数据究竟是上面数据类型的,
我们用dtype就可以发现这个是浮点数类型的(这个要注意哈)
我们也可以随机地生成一个数组,通过下面的操作
下面这个是生成了一个整数类型(后缀为int)
通过添加reshape这个函数,我们可以改变数组的形式。
在这里,我们随机创建了两个array
我们对它们进行一些基本的运算吧
在这里,我们发现除法行不通啊,为什么呢,这里的四则运算是对应项进行运算的,二在b里面,有个数据为0,我们在换个数据试试,跑一下,看看有没有变化
这里就解决了刚刚的问题了
unique这个函数呢可以告诉我们哪些数据是出现过的
sum这里是给出了每一列的总和
而下面那里是计算了第0行的总和
通过max这个函数,我们也可以知道里面最大的哪一项
矩阵
怎么改成矩阵呢
在前面加上np.mat就可以了
这里我们可以试一下它的乘法
结合文件
好了,我们再讲讲怎么结合文件来操作
这里我们需要用到pickle这个数据库,python版本在3.0以上自动搭配
我们先导入和生成一个矩阵
在这里,我们打开一个文件,前面为命名,后面为打开方式(write+二进制打开)
再把x的数据带到f里面
这时候,我们输入ls(如果是Linux系统则是!ls)
这时候我们发现这个文件已经存在了
我们再打开f看看里面是不是和x一样的东西
我们再把x保存一下,前面是文件名
再输ls,看看有没有
好了,大功告成
numpy的基本操作就是这些了
致谢
对数据科学感兴趣的伙计们可以关注一下这个专栏喔,谢谢啦
我会时不时地把学到的知识和大家分享一下,这也算是一个学习日记吧,希望你能喜欢
标签:jupyter,可以,notebook,报错,array,numpy,我们 From: https://blog.csdn.net/2301_79740539/article/details/140505537