基础操作
(1)用字典数据类型创建DataFrame。
(2)将创建的Dataframe的索引设置为,ABCD。并且命名为“索引”。
(3)在下面新增一行。然后删除。
(4)增加新的属性列,列名设置为‘port’,值均为1。
(5)取出1991和1994年的数据。
(6)获取前‘state’和‘year’的数据。
(7)查看每一列数据的数据格式,并且将‘pop’每个数据乘2。
数据操作
(1)读取香港酒店数据。
(2)按照数据的内容,重新设置数据的索引,重新设置列名称为'名字','类型','城市','地区','地点','评分','评分人数','价格'。
(3)查看所有类型为“浪漫情侣”的酒店
(4)查看所有类型为“浪漫情侣”,地区在湾仔的酒店
(5)查看所有地址在观塘或者油尖旺,评分大于4的酒店
(6)查看类型缺失的数据
(7)用“其他”填充类型和地区
(8)用评分均值填充缺失值
(9)删除价格和评分人数的缺失值
(10)保存到“酒店数据1.xlsx”
读取上次完成的数据
(1)读取上次作业保存的数据,酒店数据1.xlsx
(2)查看“评分”的格式,并分别进行升序和降序排序
(3)对酒店按照价格进行排名,计算“油尖旺”地区的均价。
(4)对酒店数据进行描述性统计,并求所有价格的均值方差,最大最小值,中值。
(5)计算评分和价格之间的的相关系数,协方差
(6)按照评分降序排序,评分相同时按价格升序排序。
(7)计算一下,评分小于3分的酒店数量和占比。
(8)计算一下,酒店评分大于等于4分的酒店的价格均值。
(9)计算出每个地区的酒店占总酒店数量的比例。
(10)找出酒店评分人数排名前20的酒店,并计算他们的价格均值。
(11)查看酒店分布的类型数量和地区数量,并统计各个类型和地区包含的酒店数量。
(12)用数据透视表,计算每个类型的酒店的评分人数总数量。
(13)用数据透视表,计算每个类型的酒店价格的均值和标准差
(14)用数据透视表,计算每个地区酒店价格和评分的最大值和最小值
(15)用数据透视表,计算每个地区和类型的酒店的评分的均值和标准差
继续上次的
(1)读取数据。读取之前作业保存的“酒店数据1.xlsx”
(2)将“类型”和“名字”设置为层次化索引,并交换索引的位置。然后将层次化索引取消。
(3)将数据集转置,获取转制后的index和columns。
(4)用Groupby方法来计算每个地区的评分人数的总和以及均值。
(5)用Grouby方法计算每个类型的平均价格,最高价和最低价。
(6)数据离散化,按照价格将酒店分为3个等级,0-500为C,500-1000为B,大于1000为A,列名设置为“价格等级”。
(7)获取评分均值最高和最低的地区的数据,分别使用append和concat方法将获取的两个数据集合并。
(8)数据离散化,按照评分人数将酒店平均分为3个等级,三个等级的酒店数量尽量保持一致。评分人数最多的为A,最少的为C。列名设置为“热门等级”。
(9)选出评分人数为A,价格也为A的酒店数据,计算其平均评分。
(10)取价格最高的5个酒店的数据,使用stack和unstack方法实现dataframe和Series之间的转换。
(11)纵向拆分数据集,分为df1和df2,df1包含名字,类型,城市,地区,df2包含名字,地点,评分,评分人数,价格,价格等级,热门等级。
(12)将df2按照价格进行排序,重新设置df2的索引。索引值等于价格排名。
(13)使用merge方法将df1和df2合并。
(14)将合并后的数据集保存数据到“酒店数据2.xlsx”。
根据酒店数据2.xlsx
(1)画出$y=x^{2}+2x+1$在区间[-5,3]的函数图像。
(2)在同一张图中创建两个子图,分别画出sinx和cosx在[-3.14,3.14]上的函数图像。设置线条宽度为2.5.
(3)读取上次作业保存的酒店数据,画出每个地区酒店数量的柱状图,柱状颜色为红色
(4)画出每个价格等级酒店数量的柱状图。
(5)画出各个价格等级占比的饼图。
(6)画出酒店评分的直方图。
(7)画出每个热门等级酒店评分均值的柱状图。(按照评分均值从小到大排序。)
需要进阶练习的可以去看【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一-腾讯云开发者社区-腾讯云 (tencent.com)
标签:楚怡杯,酒店,评分,程序开发,职业院校,类型,均值,价格,数据 From: https://blog.csdn.net/Play_Sai/article/details/142280537