首页 > 编程语言 >Python __ Pandas __ Dataframe 实验课

Python __ Pandas __ Dataframe 实验课

时间:2023-04-05 19:56:04浏览次数:46  
标签:__ Python Brand 星巴克 starbucks pd print fdata 实验课

基于Dataframe实现以下功能:

导入directory.csv

import numpy as np
import pandas as pd
fdata=pd.read_csv('F:\\directory.csv')
dfx=pd.DataFrame(fdata)
starbucks=pd.DataFrame(fdata)

显示数据集的基本信息

print(fdata.head())
print(fdata.info())
print(fdata.describe())

统计缺失值并删除city为缺失值的记录

dfx=pd.DataFrame(fdata)
print("统计缺失值")
print(dfx.isnull().sum())
print("删除city为缺失值的记录")
dfx.dropna(subset=['City'],inplace=True)
print("统计缺失值")
print(dfx.isnull().sum())

统计星巴克旗下的品牌数

print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']

全世界一共有多少家星巴克门店

coffee = starbucks[starbucks.Brand=='Starbucks']
print("全世界一共有多少家星巴克门店:",coffee.shape[0])

全世界一共多少个国家开设了星巴克门店

df=starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)

显示排名前10的国家

df1=df.sort_values(ascending=False)
print("排名前10的国家",df1.head(10))

整体代码

# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

starbucks = pd.read_csv("directory.csv")
print(starbucks.head())
starbucks.info()

print(starbucks.isnull().sum())
star = starbucks.dropna(how='any',subset=['City'])
print(star.isnull().sum())

# 星巴克旗下有哪些品牌?
print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']

# 全世界一共有多少家星巴克门店?
print("-------------------------")
print(coffee.shape[0])

df = starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)
df1 = df.sort_values( ascending=False)
print("排名前10的国家:\n",df1.head(10))


标签:__,Python,Brand,星巴克,starbucks,pd,print,fdata,实验课
From: https://www.cnblogs.com/kingwz/p/16201686.html

相关文章

  • 操纵GPIO
    开启外设时钟使用复位和时钟控制RCC驱动程序(stm32f10x_rcc.c)有3个针对不同总线连接的外设时钟命令函数•RCC_AHBPeriphClockCmd•RCC_APB1PeriphClockCmd•RCC_APB2PeriphClockCmdGPIO通过APB2总线连接系统开启GPIO外设时钟的函数RCC_APB2PeriphClockCmd 如:开启GPIOA外......
  • ArrayBlockingQueue解释
    1//transient是Java语言的关键字,用来表示一个成员变量不是该对象序列化的一部分。当一个对象被序列化的时候,transient型变量的值不包括在序列化的结果中。2//而非transient型的变量是被包括进去的。注意static修饰的静态变量天然就是不可序列化的。34......
  • __sync_fetch_and_add函数
    (一)背景实现多线程环境下的计数器操作,统计相关事件的次数.当然我们知道,count++这种操作不是原子的。一个自加操作,本质是分成三步的:1从缓存取到寄存器2在寄存器加13存入缓存。由于时序的因素,多个线程操作同一个全局变量,会出现问题。这也是并发编程的难点。在目前多核条件下......
  • IntelliJ IDEA 2019 快捷键
    打开关闭左侧文件夹:Alt+1运行程序:Shift+F10编译程序:Ctrl+Shift+F10代码提示:Ctrl+Space格式化代码:Ctrl+Alt+L在方法间跳转:Ctrl+Alt+向上/向下箭头在文件间跳转:Ctrl+Tab查找文件:Ctrl+Shift+N查找类、方法:Ctrl+N查找文本:Ctrl+F替换文本:Ctrl......
  • 牛客小白月赛61 ABCE*
    https://ac.nowcoder.com/acm/contest/46597A-超市里扫货#include<bits/stdc++.h>usingnamespacestd;typedeflonglongLL;typedefpair<LL,LL>PII;constLLMAXN=1e18,MINN=-MAXN,INF=0x3f3f3f3f;constLLN=2e6+10,M=3023;constLLmod=100000007;const......
  • Redis布隆过滤器的原理和安装使用
    前言本文讲述布隆过滤器(RedisBloom)的基本原理和安装使用。RedisBloom是什么?RedisBloom是Redis中过滤器模块,可以用来判断值是否存在,常用来解决缓存穿透问题。查询数据时,先用RedisBloom判断数据是否存在,不存在则直接返回,存在则从缓存/数据库获取后返回。比如查询接......
  • python-爬虫-css提取-写入csv-爬取猫眼电影榜单
    猫眼有一个电影榜单top100,我们将他的榜单电影数据(电影名、主演、上映时间、豆瓣评分)抓下来保存到本地的excle中本案例使用css方式提取页面数据,所以会用到以下库importtimeimportrequestsimportparsel#解析库,解析cssimportcsv#爬取的数据写入csv创建csv文件标头信息......
  • Auto Chess (双指针, 极角排序)
    题目大意:释放一个45都的技能去尽可能消灭更多的敌人(在一个平面里面)  思路:技能是无线长的,于是抛弃无用信息,只保留斜率即可然后利用双指针,或者二分去做即可 ......
  • Redis 在排行榜中的应用
    1.Redis的SortedSet数据类型1.1SortedSet数据类型的特点SortedSet有序集合是Redis提供的一种重要的数据类型。它是由不重复且有序的字符串元素组成的,而且每个元素都会关联一个double类型的分数,通过该分数来为集合中的成员进行从小到大的排序。SortedSet的......
  • 实验三
    实验任务1源码#include<stdio.h>#include<stdlib.h>#include<time.h>#include<windows.h>#defineN80voidprint_text(intline,intcol,chartext[]);voidprint_spaces(intn);voidprint_blank_lines(intn);intmain(){intline,......