基于Dataframe实现以下功能:
导入directory.csv
import numpy as np
import pandas as pd
fdata=pd.read_csv('F:\\directory.csv')
dfx=pd.DataFrame(fdata)
starbucks=pd.DataFrame(fdata)
显示数据集的基本信息
print(fdata.head())
print(fdata.info())
print(fdata.describe())
统计缺失值并删除city为缺失值的记录
dfx=pd.DataFrame(fdata)
print("统计缺失值")
print(dfx.isnull().sum())
print("删除city为缺失值的记录")
dfx.dropna(subset=['City'],inplace=True)
print("统计缺失值")
print(dfx.isnull().sum())
统计星巴克旗下的品牌数
print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']
全世界一共有多少家星巴克门店
coffee = starbucks[starbucks.Brand=='Starbucks']
print("全世界一共有多少家星巴克门店:",coffee.shape[0])
全世界一共多少个国家开设了星巴克门店
df=starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)
显示排名前10的国家
df1=df.sort_values(ascending=False)
print("排名前10的国家",df1.head(10))
整体代码
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
starbucks = pd.read_csv("directory.csv")
print(starbucks.head())
starbucks.info()
print(starbucks.isnull().sum())
star = starbucks.dropna(how='any',subset=['City'])
print(star.isnull().sum())
# 星巴克旗下有哪些品牌?
print("星巴克旗下品牌有:\n",starbucks.Brand.value_counts())
# 把重心放在星巴克的咖啡门店上面,所以只查看Brand是Starbucks的数据集内容。
coffee = starbucks[starbucks.Brand=='Starbucks']
# 全世界一共有多少家星巴克门店?
print("-------------------------")
print(coffee.shape[0])
df = starbucks.groupby(["Country"]).size()
print("全世界一共多少个国家开设了星巴克门店:",df.size)
df1 = df.sort_values( ascending=False)
print("排名前10的国家:\n",df1.head(10))
标签:__,Python,Brand,星巴克,starbucks,pd,print,fdata,实验课
From: https://www.cnblogs.com/kingwz/p/16201686.html