数据科学入门之关于jupyter notebook的基本使用及numpy数据库的基本调用(内含一些报错整改思路）

标签：jupyter 可以 notebook 报错 array numpy 我们

前言

介绍一下数据科学

在IBM（国际商用机器公司）官网上对数据科学的解释是数据科学将数学和统计学、专业编程、高级分析，人工智能和机器学习与特定主题专业知识相结合，获取隐藏在组织数据中的切实可行的洞察。这些洞察可用于指导决策和战略规划。

关于数据科学，我十分喜欢在中国人民大学信息资源管理学院里面写的一句话

以数据赋能社会，以历史预见未来

数据科学是个应用十分广泛的技术领域，尤其在计算机领域和金融领域，对人工智能，金融科技，机器学习（深度学习）感兴趣的同学们都可以了解一下ds（data science）这一个十分有趣的领域，在某些方面与ML有些异曲同工之妙，在刚刚所提到领域的小伙伴们都可以了解一下，说不定对自己的研究有些新的思路和发现，当然不是刚刚所提领域同学们也可以了解有些ds，这也能帮助我们拥有一个多元融合，跨学科交叉的思维，也有利于我们未来的发展以及对事物发展的看法，总之，希望大家能提起对ds的兴趣，以及进一步了解ds。同时我之所以学习学习ds，也是兴趣所驱动，并没有科研压力和学习压力，也希望大家能放轻松来学习，提起兴趣。

jupyuter notebook

小伙伴们，今天我们来讲讲数据科学的入坑必走之路，讲讲jupyter notebook的安装使用及在jupyter notebook上调用numpy数据库的一些基本操作，里面主要涉及到到了在数据科学领域无处不在的数组和矩阵，感兴趣的小伙伴们可以停下脚步来看看哈。

关于jupyter notebook，这是很多ds课第一节课要讲的东西，怎么去安装呢，我是在anaconda上面download了一个安装包，再用cmd（指示命令符）通过输入下面的内容来实现的

python --version

这一句话呢，是让你的pc来告诉你，你python的版本（ps：过低的版本是没有办法去实现的喔）

如果你python的版本已经到了3.X.X的时候，我们就可以输入以下内容了

pip install jupyter notebook

然后在cdm中再次输入jupyter notebook

这时候cmd中就会出现这个页面了，一般来讲这时候是会跳到jupyter notebook的页面的，如果没有，也没有关系，我们可以通过复制最cmd中最后几行中出现的网站进行copy，从而进入到jupyter notebook上面的页面。

打开以后就会跳出这个页面，这时候我们去点击new这个按钮，找到python3这个选项，打开一个新的文件，可能有的同学在这个环节找不到python3（当jupyter提示到找不到kernel时），莫急，这时候我们再次拿出的cmd神器，在输入出输入以下指令

python -m pip install ipykernel

这个指令是来安装ipkernel包的

针对当前用户安装ipkernel，这时候我们输入下面这一个指令即可：

python -mipykernel install --user

紧接着，我们再次用cmd调出jupyter notebook，这时候在jupyter notebook上就应该可以看见python3这一个选项啦。

jupyter notebook怎么用

对文件的管理

在home页里面，我们可以多选或者部分选择文件

当我们选中某一个文件的时候，我们就可以对该文件进行重命名和删除。

基本使用

如果你用的是coursea上的notebook，那么你可以根据coursea上的指示去实现，如果不是，你可以跟着我来

我们去点击Untitled1这里时，我们就可以对文件进行重新的命名，如下图所示

我们今天先教大家数组，因此大家可以先输入array来对该文件进行命名。

代码

不过在教大家array前，我们先讲讲hello world的实现，看到这里，有的同学可能就会笑了，不就是hello world吗，在这里还真不一样。

试过的同学可能已经发现啦，在键盘上输入enter后尽然在换行，而不是去实现我们的功能，那怎么才能实现呢，这时候，你需要按住shift键，再去按enter

我们还可以按上面的运行符进行实现该操作。

在头顶的位置，我们可以选择模式哈，现在我们来写个标题

我们先把模式调到markdown，再输入下面的指令

# 哈哈，今天真开心，又学会了jupyter notebook啦

我们来跑一下

这样我们又写了一个标题啦

numpy数据库的调用

list

来现在，我们讲讲array怎么实现

首先，我们导入numpy这一个数据库，如下指令一样

我们解释一下这句话是什么意思，在这里，我们导入了numpy这个数据库，并把numpy命名为np（这是大多数数据科学家的习惯做法，为了代码的可读性，我们也这样写）

如果没有下载numpy的小伙伴可以再次打开cmd，输入下面的指令

pip install numpy

就可以了

通过这样的方式，我们创建了第一个列表，并成功地将其打印出来了

在这里，可能有的同学不能像我这样进行换行，我给大家讲讲吧，我们只需同时按住enter键和shift键即可实现。

array

通过利用numpy里有的函数，我们可以将刚刚的列表转化成数组（array），这是一个一维数组，我们也可以生成一个二维的数组，如下

注意哈，这里多了一个中括号

通过上面的shape（看其为几乘几的array），size（查看里面究竟有几个数），dtype（查看其中的数据类型）

在dtype上，我们要进行了一个对比，一个是纯整数类型的，一个是整数类型和浮点数结合的一个数组，我们不难发现，在这里，它和其他编译语言一样，选择了最能容载的数据类型。

接下来，我们讲讲切片问题

调用numpy数据库时候，和python的切片一样，在np.arrange(X,Y,Z)中，X的意思是首项开始的地方，Y的意思是最后一项（最后一项不算），Z是步数。（如有不懂可以看上面的对比）

如果我们不规定步数又会怎么样

它的步数会自动调成1

上面是来生成0的矩阵，上面第一个是一维的，第二是生成几×几的array。

我们亦可以通过eye（X）来生成X乘X的单位向量。

有细心的小伙伴可能已经发现了，这些数据都是带小数点，那我们来看看这鞋数据究竟是上面数据类型的，

我们用dtype就可以发现这个是浮点数类型的（这个要注意哈）

我们也可以随机地生成一个数组，通过下面的操作

下面这个是生成了一个整数类型（后缀为int）

通过添加reshape这个函数，我们可以改变数组的形式。

在这里，我们随机创建了两个array

我们对它们进行一些基本的运算吧

在这里，我们发现除法行不通啊，为什么呢，这里的四则运算是对应项进行运算的，二在b里面，有个数据为0，我们在换个数据试试，跑一下，看看有没有变化

这里就解决了刚刚的问题了

unique这个函数呢可以告诉我们哪些数据是出现过的

sum这里是给出了每一列的总和
而下面那里是计算了第0行的总和

通过max这个函数，我们也可以知道里面最大的哪一项

矩阵

怎么改成矩阵呢

在前面加上np.mat就可以了

这里我们可以试一下它的乘法

结合文件

好了，我们再讲讲怎么结合文件来操作

这里我们需要用到pickle这个数据库，python版本在3.0以上自动搭配

我们先导入和生成一个矩阵

在这里，我们打开一个文件，前面为命名，后面为打开方式（write+二进制打开）

再把x的数据带到f里面

这时候，我们输入ls（如果是Linux系统则是!ls）

这时候我们发现这个文件已经存在了

我们再打开f看看里面是不是和x一样的东西

我们再把x保存一下，前面是文件名

再输ls，看看有没有

好了，大功告成

numpy的基本操作就是这些了

致谢

对数据科学感兴趣的伙计们可以关注一下这个专栏喔，谢谢啦

我会时不时地把学到的知识和大家分享一下，这也算是一个学习日记吧，希望你能喜欢

标签：jupyter,可以,notebook,报错,array,numpy,我们
From： https://blog.csdn.net/2301_79740539/article/details/140505537