标签：... 教程 No bill Dinner 2.2 tips Male Pandas

原文：pandas.pydata.org/docs/

与 Stata 的比较

原文：pandas.pydata.org/docs/getting_started/comparison/comparison_with_stata.html

对于可能来自Stata的潜在用户，本页面旨在演示如何在 pandas 中执行不同的 Stata 操作。

如果您是 pandas 的新手，您可能首先想通过阅读 10 分钟入门 pandas 来熟悉该库。

惯例上，我们按照以下方式导入 pandas 和 NumPy：

In [1]: import pandas as pd

In [2]: import numpy as np

数据结构

通用术语翻译

pandas	Stata
`DataFrame`	数据集
列	变量
行	观察
groupby	bysort
`NaN`	`.`

`DataFrame`

在 pandas 中，DataFrame类似于 Stata 数据集 - 一个具有带标签列的二维数据源，可以是不同类型的数据。正如本文档所示，几乎可以在 Stata 中应用于数据集的任何操作也可以在 pandas 中完成。

`Series`

Series是表示DataFrame的一列的数据结构。Stata 没有单独的数据结构用于单列，但总体上，使用Series与在 Stata 中引用数据集的列类似。

`Index`

每个DataFrame和Series都有一个Index - 数据的行上的标签。Stata 没有完全类似的概念。在 Stata 中，数据集的行基本上是无标签的，除了可以使用_n访问的隐式整数索引。

在 pandas 中，如果未指定索引，则默认也使用整数索引（第一行=0，第二行=1，依此类推）。虽然使用带标签的Index或MultiIndex可以实现复杂的分析，并最终是理解 pandas 的重要部分，但在此比较中，我们将基本上忽略Index，只将DataFrame视为一组列。请参阅索引文档以了解如何有效使用Index。

复制 vs. 原地操作

大多数 pandas 操作返回Series/DataFrame的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始数据：

df = df.sort_values("col1")

注意

您会看到一些方法可用的inplace=True或copy=False关键字参数：

df.replace(5, inplace=True)

关于在大多数方法（例如dropna）中弃用和移除inplace和copy进行了积极讨论，除了一小部分方法（包括replace）之外。在 Copy-on-Write 的上下文中，这两个关键字将不再必要。提案可以在这里找到。

数据输入/输出

从值构建 DataFrame

可以通过在input语句后放置数据并指定列名来构建 Stata 数据集。

input x y
1 2
3 4
5 6
end

可以以许多不同的方式构建 pandas 的DataFrame，但对于少量值来说，通常将其指定为 Python 字典是方便的，其中键是列名，值是数据。

In [3]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})

In [4]: df
Out[4]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

像 Stata 一样，pandas 提供了从许多格式中读取数据的实用程序。在 pandas 测试中找到的tips数据集（csv）将在接下来的许多示例中使用。

Stata 提供import delimited来将 csv 数据读入内存中的数据集。如果tips.csv文件在当前工作目录中，我们可以按照以下方式导入。

import delimited tips.csv

pandas 的方法是read_csv()，其工作方式类似。此外，如果提供了 url，它还会自动下载数据集。

In [5]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev"
 ...:    "/pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 

In [6]: tips = pd.read_csv(url)

In [7]: tips
Out[7]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

类似于import delimited，read_csv()可以接受许多参数来指定数据应如何解析。例如，如果数据实际上是制表符分隔的，没有列名，并且存在于当前工作目录中，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)

# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

pandas 也可以使用read_stata()函数读取.dta格式的 Stata 数据集。

df = pd.read_stata("data.dta")

除了文本/csv 和 Stata 文件外，pandas 还支持各种其他数据格式，如 Excel、SAS、HDF5、Parquet 和 SQL 数据库。这些都是通过pd.read_*函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出，以显示第一行和最后一行。这可以通过更改 pandas 选项或使用DataFrame.head()或DataFrame.tail()来覆盖。

In [8]: tips.head(5)
Out[8]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 Stata 中的等价操作是：

list in 1/5

导出数据

在 Stata 中import delimited的反操作是export delimited

export delimited tips2.csv

类似于 Stata，read_csv的相反操作是DataFrame.to_csv()。

tips.to_csv("tips2.csv")

pandas 也可以使用DataFrame.to_stata()方法导出为 Stata 文件格式。

tips.to_stata("tips2.dta")

数据操作

列操作

在 Stata 中，可以在新的或现有列上使用generate和replace命令进行任意数学表达式。drop命令会从数据集中删除列。

replace total_bill = total_bill - 2
generate new_bill = total_bill / 2
drop new_bill

pandas 通过在DataFrame中指定各个Series来提供矢量化操作。新列可以以相同方式分配。DataFrame.drop()方法从DataFrame中删除一列。

In [9]: tips["total_bill"] = tips["total_bill"] - 2

In [10]: tips["new_bill"] = tips["total_bill"] / 2

In [11]: tips
Out[11]: 
 total_bill   tip     sex smoker   day    time  size  new_bill
0         14.99  1.01  Female     No   Sun  Dinner     2     7.495
1          8.34  1.66    Male     No   Sun  Dinner     3     4.170
2         19.01  3.50    Male     No   Sun  Dinner     3     9.505
3         21.68  3.31    Male     No   Sun  Dinner     2    10.840
4         22.59  3.61  Female     No   Sun  Dinner     4    11.295
..          ...   ...     ...    ...   ...     ...   ...       ...
239       27.03  5.92    Male     No   Sat  Dinner     3    13.515
240       25.18  2.00  Female    Yes   Sat  Dinner     2    12.590
241       20.67  2.00    Male    Yes   Sat  Dinner     2    10.335
242       15.82  1.75    Male     No   Sat  Dinner     2     7.910
243       16.78  3.00  Female     No  Thur  Dinner     2     8.390

[244 rows x 8 columns]

In [12]: tips = tips.drop("new_bill", axis=1)

过滤

在 Stata 中，通过对一个或多个列使用if子句来进行过滤。

list if total_bill > 10

数据框可以通过多种方式进行过滤；其中最直观的是使用布尔索引。

In [13]: tips[tips["total_bill"] > 10]
Out[13]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
5         23.29  4.71    Male     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[204 rows x 7 columns]

上述语句只是将True/False对象的Series传递给数据框，返回所有具有True的行。

In [14]: is_dinner = tips["time"] == "Dinner"

In [15]: is_dinner
Out[15]: 
0      True
1      True
2      True
3      True
4      True
 ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool

In [16]: is_dinner.value_counts()
Out[16]: 
time
True     176
False     68
Name: count, dtype: int64

In [17]: tips[is_dinner]
Out[17]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
1          8.34  1.66    Male     No   Sun  Dinner     3
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[176 rows x 7 columns]

如果/然后逻辑

在 Stata 中，if子句也可用于创建新列。

generate bucket = "low" if total_bill < 10
replace bucket = "high" if total_bill >= 10

在 pandas 中，可以使用numpy的where方法来执行相同的操作。

In [18]: tips["bucket"] = np.where(tips["total_bill"] < 10, "low", "high")

In [19]: tips
Out[19]: 
 total_bill   tip     sex smoker   day    time  size bucket
0         14.99  1.01  Female     No   Sun  Dinner     2   high
1          8.34  1.66    Male     No   Sun  Dinner     3    low
2         19.01  3.50    Male     No   Sun  Dinner     3   high
3         21.68  3.31    Male     No   Sun  Dinner     2   high
4         22.59  3.61  Female     No   Sun  Dinner     4   high
..          ...   ...     ...    ...   ...     ...   ...    ...
239       27.03  5.92    Male     No   Sat  Dinner     3   high
240       25.18  2.00  Female    Yes   Sat  Dinner     2   high
241       20.67  2.00    Male    Yes   Sat  Dinner     2   high
242       15.82  1.75    Male     No   Sat  Dinner     2   high
243       16.78  3.00  Female     No  Thur  Dinner     2   high

[244 rows x 8 columns]

日期功能

Stata 提供了各种函数来对日期/时间列进行操作。

generate date1 = mdy(1, 15, 2013)
generate date2 = date("Feb152015", "MDY")

generate date1_year = year(date1)
generate date2_month = month(date2)

* shift date to beginning of next month
generate date1_next = mdy(month(date1) + 1, 1, year(date1)) if month(date1) != 12
replace date1_next = mdy(1, 1, year(date1) + 1) if month(date1) == 12
generate months_between = mofd(date2) - mofd(date1)

list date1 date2 date1_year date2_month date1_next months_between

下面显示了等效的 pandas 操作。除了这些功能外，pandas 还支持其他 Stata 中不可用的时间序列功能（如时区处理和自定义偏移）-有关更多详细信息，请参阅时间序列文档。

In [20]: tips["date1"] = pd.Timestamp("2013-01-15")

In [21]: tips["date2"] = pd.Timestamp("2015-02-15")

In [22]: tips["date1_year"] = tips["date1"].dt.year

In [23]: tips["date2_month"] = tips["date2"].dt.month

In [24]: tips["date1_next"] = tips["date1"] + pd.offsets.MonthBegin()

In [25]: tips["months_between"] = tips["date2"].dt.to_period("M") - tips[
 ....:    "date1"
 ....: ].dt.to_period("M")
 ....: 

In [26]: tips[
 ....:    ["date1", "date2", "date1_year", "date2_month", "date1_next", "months_between"]
 ....: ]
 ....: 
Out[26]: 
 date1      date2  date1_year  date2_month date1_next    months_between
0   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
1   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
2   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
3   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
4   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
..         ...        ...         ...          ...        ...               ...
239 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
240 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
241 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
242 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
243 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>

[244 rows x 6 columns]

选择列

Stata 提供了关键字来选择、删除和重命名列。

keep sex total_bill tip

drop sex

rename total_bill total_bill_2

下面展示了在 pandas 中表达相同操作的方式。

保留特定列

In [27]: tips[["sex", "total_bill", "tip"]]
Out[27]: 
 sex  total_bill   tip
0    Female       14.99  1.01
1      Male        8.34  1.66
2      Male       19.01  3.50
3      Male       21.68  3.31
4    Female       22.59  3.61
..      ...         ...   ...
239    Male       27.03  5.92
240  Female       25.18  2.00
241    Male       20.67  2.00
242    Male       15.82  1.75
243  Female       16.78  3.00

[244 rows x 3 columns]

删除一列

In [28]: tips.drop("sex", axis=1)
Out[28]: 
 total_bill   tip smoker   day    time  size
0         14.99  1.01     No   Sun  Dinner     2
1          8.34  1.66     No   Sun  Dinner     3
2         19.01  3.50     No   Sun  Dinner     3
3         21.68  3.31     No   Sun  Dinner     2
4         22.59  3.61     No   Sun  Dinner     4
..          ...   ...    ...   ...     ...   ...
239       27.03  5.92     No   Sat  Dinner     3
240       25.18  2.00    Yes   Sat  Dinner     2
241       20.67  2.00    Yes   Sat  Dinner     2
242       15.82  1.75     No   Sat  Dinner     2
243       16.78  3.00     No  Thur  Dinner     2

[244 rows x 6 columns]

重命名列

In [29]: tips.rename(columns={"total_bill": "total_bill_2"})
Out[29]: 
 total_bill_2   tip     sex smoker   day    time  size
0           14.99  1.01  Female     No   Sun  Dinner     2
1            8.34  1.66    Male     No   Sun  Dinner     3
2           19.01  3.50    Male     No   Sun  Dinner     3
3           21.68  3.31    Male     No   Sun  Dinner     2
4           22.59  3.61  Female     No   Sun  Dinner     4
..            ...   ...     ...    ...   ...     ...   ...
239         27.03  5.92    Male     No   Sat  Dinner     3
240         25.18  2.00  Female    Yes   Sat  Dinner     2
241         20.67  2.00    Male    Yes   Sat  Dinner     2
242         15.82  1.75    Male     No   Sat  Dinner     2
243         16.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

按值排序

在 Stata 中，通过sort来实现排序

sort sex total_bill

pandas 有一个DataFrame.sort_values()方法，可以按列排序。

In [30]: tips = tips.sort_values(["sex", "total_bill"])

In [31]: tips
Out[31]: 
 total_bill    tip     sex smoker   day    time  size
67         1.07   1.00  Female    Yes   Sat  Dinner     1
92         3.75   1.00  Female    Yes   Fri  Dinner     2
111        5.25   1.00  Female     No   Sat  Dinner     1
145        6.35   1.50  Female     No  Thur   Lunch     2
135        6.51   1.25  Female     No  Thur   Lunch     2
..          ...    ...     ...    ...   ...     ...   ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3
156       46.17   5.00    Male     No   Sun  Dinner     6
59        46.27   6.73    Male     No   Sat  Dinner     4
212       46.33   9.00    Male     No   Sat  Dinner     4
170       48.81  10.00    Male    Yes   Sat  Dinner     3

[244 rows x 7 columns]

字符串处理

查找字符串长度

Stata 使用strlen()和ustrlen()函数分别确定 ASCII 和 Unicode 字符串的长度。

generate strlen_time = strlen(time)
generate ustrlen_time = ustrlen(time)

您可以使用Series.str.len()找到字符字符串的长度。在 Python 3 中，所有字符串都是 Unicode 字符串。len包括尾随空格。使用len和rstrip来排除尾随空格。

In [32]: tips["time"].str.len()
Out[32]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

In [33]: tips["time"].str.rstrip().str.len()
Out[33]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

查找子字符串的位置

Stata 使用strpos()函数确定字符串中字符的位置。该函数接受由第一个参数定义的字符串，并搜索您提供的第二个参数作为子字符串的第一个位置。

generate str_position = strpos(sex, "ale")

您可以使用Series.str.find()方法在字符串列中找到字符的位置。find搜索子字符串的第一个位置。如果找到子字符串，则该方法返回其位置。如果未找到，则返回-1。请记住，Python 索引是从零开始的。

In [34]: tips["sex"].str.find("ale")
Out[34]: 
67     3
92     3
111    3
145    3
135    3
 ..
182    1
156    1
59     1
212    1
170    1
Name: sex, Length: 244, dtype: int64

根据位置提取子字符串

Stata 使用substr()函数根据位置从字符串中提取子字符串。

generate short_sex = substr(sex, 1, 1)

使用 pandas，您可以使用[]符号按位置提取字符串中的子字符串。请记住，Python 的索引是从零开始的。

In [35]: tips["sex"].str[0:1]
Out[35]: 
67     F
92     F
111    F
145    F
135    F
 ..
182    M
156    M
59     M
212    M
170    M
Name: sex, Length: 244, dtype: object

提取第 n 个单词

Stata 的word()函数从字符串中返回第 n 个单词。第一个参数是要解析的字符串，第二个参数指定要提取的单词。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate first_name = word(name, 1)
generate last_name = word(name, -1)

在 pandas 中提取单词的最简单方法是通过空格拆分字符串，然后按索引引用单词。请注意，如果需要，还有更强大的方法。

In [36]: firstlast = pd.DataFrame({"String": ["John Smith", "Jane Cook"]})

In [37]: firstlast["First_Name"] = firstlast["String"].str.split(" ", expand=True)[0]

In [38]: firstlast["Last_Name"] = firstlast["String"].str.rsplit(" ", expand=True)[1]

In [39]: firstlast
Out[39]: 
 String First_Name Last_Name
0  John Smith       John     Smith
1   Jane Cook       Jane      Cook

更改大小写

Stata 的strupper()、strlower()、strproper()、ustrupper()、ustrlower()和ustrtitle()函数分别更改 ASCII 和 Unicode 字符串的大小写。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate upper = strupper(string)
generate lower = strlower(string)
generate title = strproper(string)
list

等效的 pandas 方法是Series.str.upper()、Series.str.lower()和Series.str.title()。

In [40]: firstlast = pd.DataFrame({"string": ["John Smith", "Jane Cook"]})

In [41]: firstlast["upper"] = firstlast["string"].str.upper()

In [42]: firstlast["lower"] = firstlast["string"].str.lower()

In [43]: firstlast["title"] = firstlast["string"].str.title()

In [44]: firstlast
Out[44]: 
 string       upper       lower       title
0  John Smith  JOHN SMITH  john smith  John Smith
1   Jane Cook   JANE COOK   jane cook   Jane Cook

合并

下表将用于合并示例：

In [45]: df1 = pd.DataFrame({"key": ["A", "B", "C", "D"], "value": np.random.randn(4)})

In [46]: df1
Out[46]: 
 key     value
0   A  0.469112
1   B -0.282863
2   C -1.509059
3   D -1.135632

In [47]: df2 = pd.DataFrame({"key": ["B", "D", "D", "E"], "value": np.random.randn(4)})

In [48]: df2
Out[48]: 
 key     value
0   B  1.212112
1   D -0.173215
2   D  0.119209
3   E -1.044236

在 Stata 中，要执行合并，一个数据集必须在内存中，另一个必须作为磁盘上的文件名引用。相比之下，Python 必须已经将两个DataFrames都加载到内存中。

默认情况下，Stata 执行外连接，合并后两个数据集中的所有观测值都保留在内存中。可以通过使用_merge变量中创建的值，仅保留来自初始数据集、合并数据集或两者交集的观测值。

* First create df2 and save to disk
clear
input str1 key
B
D
D
E
end
generate value = rnormal()
save df2.dta

* Now create df1 in memory
clear
input str1 key
A
B
C
D
end
generate value = rnormal()

preserve

* Left join
merge 1:n key using df2.dta
keep if _merge == 1

* Right join
restore, preserve
merge 1:n key using df2.dta
keep if _merge == 2

* Inner join
restore, preserve
merge 1:n key using df2.dta
keep if _merge == 3

* Outer join
restore
merge 1:n key using df2.dta

pandas DataFrames 具有merge()方法，提供类似的功能。数据不必事先排序，不同的连接类型通过how关键字实现。

In [49]: inner_join = df1.merge(df2, on=["key"], how="inner")

In [50]: inner_join
Out[50]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209

In [51]: left_join = df1.merge(df2, on=["key"], how="left")

In [52]: left_join
Out[52]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

In [53]: right_join = df1.merge(df2, on=["key"], how="right")

In [54]: right_join
Out[54]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209
3   E       NaN -1.044236

In [55]: outer_join = df1.merge(df2, on=["key"], how="outer")

In [56]: outer_join
Out[56]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236

缺失数据

pandas 和 Stata 都有缺失数据的表示。

pandas 用特殊的浮点值NaN（不是一个数字）表示缺失数据。许多语义是相同的；例如，缺失数据通过数值运算传播，并且默认情况下在聚合中被忽略。

In [57]: outer_join
Out[57]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236

In [58]: outer_join["value_x"] + outer_join["value_y"]
Out[58]: 
0         NaN
1    0.929249
2         NaN
3   -1.308847
4   -1.016424
5         NaN
dtype: float64

In [59]: outer_join["value_x"].sum()
Out[59]: -3.5940742896293765

一个区别是缺失数据无法与其标记值进行比较。例如，在 Stata 中，您可以这样过滤缺失值。

* Keep missing values
list if value_x == .
* Keep non-missing values
list if value_x != .

在 pandas 中，Series.isna()和Series.notna()可用于过滤行。

In [60]: outer_join[outer_join["value_x"].isna()]
Out[60]: 
 key  value_x   value_y
5   E      NaN -1.044236

In [61]: outer_join[outer_join["value_x"].notna()]
Out[61]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

pandas 提供了各种方法来处理缺失数据。以下是一些示例：

删除具有缺失值的行

In [62]: outer_join.dropna()
Out[62]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前面的行向前填充

In [63]: outer_join.ffill()
Out[63]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [64]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[64]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

分组

聚合

Stata 的 collapse 可以用于按一个或多个关键变量分组并计算数值列的聚合。

collapse (sum) total_bill tip, by(sex smoker)

pandas 提供了灵活的 groupby 机制，允许类似的聚合。查看 groupby 文档获取更多详细信息和示例。

In [65]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()

In [66]: tips_summed
Out[66]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 Stata 中，如果需要将组聚合与原始数据集一起使用，通常会使用 bysort 与 egen()。例如，要按吸烟者组减去每个观测值的平均值。

bysort sex smoker: egen group_bill = mean(total_bill)
generate adj_total_bill = total_bill - group_bill

pandas 提供了一个 Transformation 机制，允许这些类型的操作在一个操作中简洁地表达。

In [67]: gb = tips.groupby("smoker")["total_bill"]

In [68]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")

In [69]: tips
Out[69]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656

[244 rows x 8 columns]

按组处理

除了聚合，pandas 的 groupby 还可以用于复制 Stata 中的大多数其他 bysort 处理。例如，以下示例列出了当前排序顺序中按性别/吸烟者组列出的第一个观测值。

bysort sex smoker: list if _n == 1

在 pandas 中，这样写：

In [70]: tips.groupby(["sex", "smoker"]).first()
Out[70]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

其他考虑

磁盘 vs 内存

pandas 和 Stata 都仅在内存中运行。这意味着 pandas 可以加载的数据大小受限于计算机的内存。如果需要离线处理，一个可能的选择是 dask.dataframe 库，它为磁盘上的 DataFrame 提供了一部分 pandas 功能。

数据结构

通用术语翻译

pandas	Stata
`DataFrame`	数据集
列	变量
行	观测值
groupby	bysort
`NaN`	`.`

`DataFrame`

pandas 中的 DataFrame 类似于 Stata 数据集 - 一个具有标记列的二维数据源，可以是不同类型。正如本文档所示，几乎可以在 Stata 中应用于数据集的任何操作也可以在 pandas 中完成。

`Series`

Series 是表示 DataFrame 的一列的数据结构。Stata 没有单独的数据结构用于单列，但总体上，与在 Stata 中引用数据集的列类似，使用 Series。

`Index`

每个 DataFrame 和 Series 都有一个 Index - 数据的行上的标签。Stata 没有完全类似的概念。在 Stata 中，数据集的行基本上是无标签的，除了可以通过 _n 访问的隐式整数索引。

在 pandas 中，如果未指定索引，则默认也使用整数索引（第一行 = 0，第二行 = 1，依此类推）。虽然使用带标签的 Index 或 MultiIndex 可以实现复杂的分析，并最终是理解 pandas 的重要部分，但在此比较中，我们将基本上忽略 Index，只将 DataFrame 视为一列集合。请参阅索引文档以获取有关如何有效使用 Index 的更多信息。

复制 vs. 原地操作

大多数 pandas 操作返回 Series/DataFrame 的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始内容：

df = df.sort_values("col1")

注意

您将看到一些方法可用的 inplace=True 或 copy=False 关键字参数：

df.replace(5, inplace=True)

关于大多数方法（例如 dropna）的 inplace 和 copy 的弃用和移除正在进行活跃的讨论，除了一小部分方法（包括 replace）。在写时复制的情况下，这两个关键字将不再必要。提案可以在这里找到。

通用术语翻译

pandas	Stata
`DataFrame`	数据集
列	变量
行	观察
groupby	bysort
`NaN`	`.`

`DataFrame`

在 pandas 中，一个 DataFrame 类似于 Stata 数据集 - 一个带有标记列的二维数据源，可以是不同类型的。正如本文档所示，几乎任何可以应用于 Stata 数据集的操作也可以在 pandas 中完成。

`Series`

Series 是表示 DataFrame 的一列的数据结构。Stata 没有单独的数据结构用于单列，但通常，与 Series 一起工作类似于引用 Stata 数据集中的一列。

`Index`

每个 DataFrame 和 Series 都有一个 Index - 数据的行上的标签。Stata 没有完全类似的概念。在 Stata 中，数据集的行基本上是无标签的，除了可以使用 _n 访问的隐式整数索引。

在 pandas 中，如果没有指定索引，也会默认使用整数索引（第一行 = 0，第二行 = 1，依此类推）。虽然使用标记的 Index 或 MultiIndex 可以实现复杂的分析，并且最终是理解 pandas 的重要部分，但在这个比较中，我们基本上会忽略 Index，只将 DataFrame 视为列的集合。请参阅索引文档以了解如何有效使用 Index。

复制 vs. 就地操作

大多数 pandas 操作返回 Series/DataFrame 的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始内容：

df = df.sort_values("col1")

注意

您将看到一些方法可用的 inplace=True 或 copy=False 关键字参数：

df.replace(5, inplace=True)

数据输入/输出

从数值构建 DataFrame

可以通过在 input 语句后放置数据并指定列名来从指定值构建 Stata 数据集。

input x y
1 2
3 4
5 6
end

一个 pandas DataFrame可以通过多种不同的方式构建，但对于少量值来说，通常将其指定为 Python 字典会更方便，其中键是列名，值是数据。

In [3]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})

In [4]: df
Out[4]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

像 Stata 一样，pandas 提供了从许多格式中读取数据的实用程序。在 pandas 测试中找到的tips数据集（csv）将在接下来的许多示例中使用。

Stata 提供import delimited将 csv 数据读入内存中的数据集。如果tips.csv文件在当前工作目录中，我们可以这样导入。

import delimited tips.csv

pandas 方法是read_csv()，其工作方式类似。此外，如果提供了 url，它将自动下载数据集。

In [5]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev"
 ...:    "/pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 

In [6]: tips = pd.read_csv(url)

In [7]: tips
Out[7]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

像import delimited一样，read_csv()可以接受多个参数来指定数据应如何解析。例如，如果数据实际上是制表符分隔的，没有列名，并且存在于当前工作目录中，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)

# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

pandas 还可以使用read_stata()函数读取.dta格式的 Stata 数据集。

df = pd.read_stata("data.dta")

除了文本/csv 和 Stata 文件外，pandas 还支持各种其他数据格式，如 Excel、SAS、HDF5、Parquet 和 SQL 数据库。所有这些都是通过pd.read_*函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出以显示第一行和最后一行。这可以通过更改 pandas 选项或使用DataFrame.head()或DataFrame.tail()来覆盖。

In [8]: tips.head(5)
Out[8]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 Stata 中的等效操作是：

list in 1/5

导出数据

在 Stata 中import delimited的反操作是export delimited

export delimited tips2.csv

类似地，在 pandas 中，read_csv的相反操作是DataFrame.to_csv()。

tips.to_csv("tips2.csv")

pandas 还可以使用DataFrame.to_stata()方法导出为 Stata 文件格式。

tips.to_stata("tips2.dta")

从值构建 DataFrame

可以通过在input语句后放置数据并指定列名来从指定值构建 Stata 数据集。

input x y
1 2
3 4
5 6
end

可以以许多不同的方式构建 pandas 的DataFrame，但对于少量值，通常将其指定为 Python 字典是方便的，其中键是列名，值是数据。

In [3]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})

In [4]: df
Out[4]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

与 Stata 类似，pandas 提供了从多种格式中读取数据的实用工具。在 pandas 测试中找到的tips数据集（csv）将在以下许多示例中使用。

Stata 提供了import delimited来将 csv 数据读入内存中的数据集。如果tips.csv文件位于当前工作目录中，我们可以按照以下方式导入它。

import delimited tips.csv

pandas 的方法是read_csv()，其工作方式类似。此外，如果提供了 url，它将自动下载数据集。

In [5]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev"
 ...:    "/pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 

In [6]: tips = pd.read_csv(url)

In [7]: tips
Out[7]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

与import delimited类似，read_csv()可以接受许多参数来指定数据的解析方式。例如，如果数据是制表符分隔的，没有列名，并且存在于当前工作目录中，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)

# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

pandas 还可以使用read_stata()函数读取.dta格式的 Stata 数据集。

df = pd.read_stata("data.dta")

除了 text/csv 和 Stata 文件外，pandas 还支持各种其他数据格式，如 Excel、SAS、HDF5、Parquet 和 SQL 数据库。这些都是通过pd.read_*函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出，以显示第一行和最后一行。可以通过更改 pandas 选项或使用DataFrame.head()或DataFrame.tail()来覆盖此行为。

In [8]: tips.head(5)
Out[8]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 Stata 中的等价操作是：

list in 1/5

导出数据

在 Stata 中，import delimited的反向操作是export delimited。

export delimited tips2.csv

类似地，在 pandas 中，read_csv的反向操作是DataFrame.to_csv()。

tips.to_csv("tips2.csv")

pandas 还可以使用DataFrame.to_stata()方法导出为 Stata 文件格式。

tips.to_stata("tips2.dta")

数据操作

列上的操作

在 Stata 中，可以在新列或现有列上使用generate和replace命令进行任意数学表达式运算。drop命令会从数据集中删除该列。

replace total_bill = total_bill - 2
generate new_bill = total_bill / 2
drop new_bill

pandas 通过在 DataFrame 中指定单独的 Series 来提供矢量化操作。新列可以以相同的方式分配。DataFrame.drop() 方法从 DataFrame 中删除列。

In [9]: tips["total_bill"] = tips["total_bill"] - 2

In [10]: tips["new_bill"] = tips["total_bill"] / 2

In [11]: tips
Out[11]: 
 total_bill   tip     sex smoker   day    time  size  new_bill
0         14.99  1.01  Female     No   Sun  Dinner     2     7.495
1          8.34  1.66    Male     No   Sun  Dinner     3     4.170
2         19.01  3.50    Male     No   Sun  Dinner     3     9.505
3         21.68  3.31    Male     No   Sun  Dinner     2    10.840
4         22.59  3.61  Female     No   Sun  Dinner     4    11.295
..          ...   ...     ...    ...   ...     ...   ...       ...
239       27.03  5.92    Male     No   Sat  Dinner     3    13.515
240       25.18  2.00  Female    Yes   Sat  Dinner     2    12.590
241       20.67  2.00    Male    Yes   Sat  Dinner     2    10.335
242       15.82  1.75    Male     No   Sat  Dinner     2     7.910
243       16.78  3.00  Female     No  Thur  Dinner     2     8.390

[244 rows x 8 columns]

In [12]: tips = tips.drop("new_bill", axis=1)

筛选

在 Stata 中，通过对一个或多个列使用 if 子句来进行筛选。

list if total_bill > 10

DataFrames 可以通过多种方式进行筛选；其中最直观的是使用布尔索引。

In [13]: tips[tips["total_bill"] > 10]
Out[13]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
5         23.29  4.71    Male     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[204 rows x 7 columns]

上述语句只是将一个 Series 对象传递给 DataFrame，返回所有值为 True 的行。

In [14]: is_dinner = tips["time"] == "Dinner"

In [15]: is_dinner
Out[15]: 
0      True
1      True
2      True
3      True
4      True
 ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool

In [16]: is_dinner.value_counts()
Out[16]: 
time
True     176
False     68
Name: count, dtype: int64

In [17]: tips[is_dinner]
Out[17]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
1          8.34  1.66    Male     No   Sun  Dinner     3
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[176 rows x 7 columns]

If/then 逻辑

在 Stata 中，通过对一个或多个列使用 if 子句来进行筛选。

generate bucket = "low" if total_bill < 10
replace bucket = "high" if total_bill >= 10

pandas 中可以使用 numpy 的 where 方法来执行相同的操作。

In [18]: tips["bucket"] = np.where(tips["total_bill"] < 10, "low", "high")

In [19]: tips
Out[19]: 
 total_bill   tip     sex smoker   day    time  size bucket
0         14.99  1.01  Female     No   Sun  Dinner     2   high
1          8.34  1.66    Male     No   Sun  Dinner     3    low
2         19.01  3.50    Male     No   Sun  Dinner     3   high
3         21.68  3.31    Male     No   Sun  Dinner     2   high
4         22.59  3.61  Female     No   Sun  Dinner     4   high
..          ...   ...     ...    ...   ...     ...   ...    ...
239       27.03  5.92    Male     No   Sat  Dinner     3   high
240       25.18  2.00  Female    Yes   Sat  Dinner     2   high
241       20.67  2.00    Male    Yes   Sat  Dinner     2   high
242       15.82  1.75    Male     No   Sat  Dinner     2   high
243       16.78  3.00  Female     No  Thur  Dinner     2   high

[244 rows x 8 columns]

日期功能

Stata 提供了多种函数来对日期/时间列进行操作。

generate date1 = mdy(1, 15, 2013)
generate date2 = date("Feb152015", "MDY")

generate date1_year = year(date1)
generate date2_month = month(date2)

* shift date to beginning of next month
generate date1_next = mdy(month(date1) + 1, 1, year(date1)) if month(date1) != 12
replace date1_next = mdy(1, 1, year(date1) + 1) if month(date1) == 12
generate months_between = mofd(date2) - mofd(date1)

list date1 date2 date1_year date2_month date1_next months_between

下面显示了 pandas 中的等效操作。除了这些函数外，pandas 还支持其他 Stata 中不可用的时间序列功能（如时区处理和自定义偏移）- 有关更多详细信息，请参阅时间序列文档。

In [20]: tips["date1"] = pd.Timestamp("2013-01-15")

In [21]: tips["date2"] = pd.Timestamp("2015-02-15")

In [22]: tips["date1_year"] = tips["date1"].dt.year

In [23]: tips["date2_month"] = tips["date2"].dt.month

In [24]: tips["date1_next"] = tips["date1"] + pd.offsets.MonthBegin()

In [25]: tips["months_between"] = tips["date2"].dt.to_period("M") - tips[
 ....:    "date1"
 ....: ].dt.to_period("M")
 ....: 

In [26]: tips[
 ....:    ["date1", "date2", "date1_year", "date2_month", "date1_next", "months_between"]
 ....: ]
 ....: 
Out[26]: 
 date1      date2  date1_year  date2_month date1_next    months_between
0   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
1   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
2   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
3   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
4   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
..         ...        ...         ...          ...        ...               ...
239 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
240 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
241 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
242 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
243 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>

[244 rows x 6 columns]

选择列

Stata 提供了关键字来选择、删除和重命名列。

keep sex total_bill tip

drop sex

rename total_bill total_bill_2

下面展示了 pandas 中的相同操作。

保留特定列

In [27]: tips[["sex", "total_bill", "tip"]]
Out[27]: 
 sex  total_bill   tip
0    Female       14.99  1.01
1      Male        8.34  1.66
2      Male       19.01  3.50
3      Male       21.68  3.31
4    Female       22.59  3.61
..      ...         ...   ...
239    Male       27.03  5.92
240  Female       25.18  2.00
241    Male       20.67  2.00
242    Male       15.82  1.75
243  Female       16.78  3.00

[244 rows x 3 columns]

删除一列

In [28]: tips.drop("sex", axis=1)
Out[28]: 
 total_bill   tip smoker   day    time  size
0         14.99  1.01     No   Sun  Dinner     2
1          8.34  1.66     No   Sun  Dinner     3
2         19.01  3.50     No   Sun  Dinner     3
3         21.68  3.31     No   Sun  Dinner     2
4         22.59  3.61     No   Sun  Dinner     4
..          ...   ...    ...   ...     ...   ...
239       27.03  5.92     No   Sat  Dinner     3
240       25.18  2.00    Yes   Sat  Dinner     2
241       20.67  2.00    Yes   Sat  Dinner     2
242       15.82  1.75     No   Sat  Dinner     2
243       16.78  3.00     No  Thur  Dinner     2

[244 rows x 6 columns]

重命名列

In [29]: tips.rename(columns={"total_bill": "total_bill_2"})
Out[29]: 
 total_bill_2   tip     sex smoker   day    time  size
0           14.99  1.01  Female     No   Sun  Dinner     2
1            8.34  1.66    Male     No   Sun  Dinner     3
2           19.01  3.50    Male     No   Sun  Dinner     3
3           21.68  3.31    Male     No   Sun  Dinner     2
4           22.59  3.61  Female     No   Sun  Dinner     4
..            ...   ...     ...    ...   ...     ...   ...
239         27.03  5.92    Male     No   Sat  Dinner     3
240         25.18  2.00  Female    Yes   Sat  Dinner     2
241         20.67  2.00    Male    Yes   Sat  Dinner     2
242         15.82  1.75    Male     No   Sat  Dinner     2
243         16.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

按值排序

在 Stata 中，通过 sort 来实现排序

sort sex total_bill

pandas 有一个 DataFrame.sort_values() 方法，可以按列排序。

In [30]: tips = tips.sort_values(["sex", "total_bill"])

In [31]: tips
Out[31]: 
 total_bill    tip     sex smoker   day    time  size
67         1.07   1.00  Female    Yes   Sat  Dinner     1
92         3.75   1.00  Female    Yes   Fri  Dinner     2
111        5.25   1.00  Female     No   Sat  Dinner     1
145        6.35   1.50  Female     No  Thur   Lunch     2
135        6.51   1.25  Female     No  Thur   Lunch     2
..          ...    ...     ...    ...   ...     ...   ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3
156       46.17   5.00    Male     No   Sun  Dinner     6
59        46.27   6.73    Male     No   Sat  Dinner     4
212       46.33   9.00    Male     No   Sat  Dinner     4
170       48.81  10.00    Male    Yes   Sat  Dinner     3

[244 rows x 7 columns]

列操作

在 Stata 中，可以在新列或现有列上使用 generate 和 replace 命令进行任意数学表达式运算。drop 命令会从数据集中删除该列。

replace total_bill = total_bill - 2
generate new_bill = total_bill / 2
drop new_bill

pandas 通过在 DataFrame 中指定单独的 Series 来提供矢量化操作。新列可以以相同的方式分配。DataFrame.drop() 方法从 DataFrame 中删除列。

In [9]: tips["total_bill"] = tips["total_bill"] - 2

In [10]: tips["new_bill"] = tips["total_bill"] / 2

In [11]: tips
Out[11]: 
 total_bill   tip     sex smoker   day    time  size  new_bill
0         14.99  1.01  Female     No   Sun  Dinner     2     7.495
1          8.34  1.66    Male     No   Sun  Dinner     3     4.170
2         19.01  3.50    Male     No   Sun  Dinner     3     9.505
3         21.68  3.31    Male     No   Sun  Dinner     2    10.840
4         22.59  3.61  Female     No   Sun  Dinner     4    11.295
..          ...   ...     ...    ...   ...     ...   ...       ...
239       27.03  5.92    Male     No   Sat  Dinner     3    13.515
240       25.18  2.00  Female    Yes   Sat  Dinner     2    12.590
241       20.67  2.00    Male    Yes   Sat  Dinner     2    10.335
242       15.82  1.75    Male     No   Sat  Dinner     2     7.910
243       16.78  3.00  Female     No  Thur  Dinner     2     8.390

[244 rows x 8 columns]

In [12]: tips = tips.drop("new_bill", axis=1)

筛选

在 Stata 中，通过对一个或多个列使用 if 子句来进行筛选。

list if total_bill > 10

DataFrames 可以通过多种方式进行筛选；其中最直观的是使用布尔索引。

In [13]: tips[tips["total_bill"] > 10]
Out[13]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
5         23.29  4.71    Male     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[204 rows x 7 columns]

上述语句只是将一个 Series 对象传递给 DataFrame，返回所有值为 True 的行。

In [14]: is_dinner = tips["time"] == "Dinner"

In [15]: is_dinner
Out[15]: 
0      True
1      True
2      True
3      True
4      True
 ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool

In [16]: is_dinner.value_counts()
Out[16]: 
time
True     176
False     68
Name: count, dtype: int64

In [17]: tips[is_dinner]
Out[17]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
1          8.34  1.66    Male     No   Sun  Dinner     3
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2

[176 rows x 7 columns]

If/then 逻辑

在 Stata 中，也可以使用 if 子句来创建新列。

generate bucket = "low" if total_bill < 10
replace bucket = "high" if total_bill >= 10

在 pandas 中可以使用 numpy 的 where 方法来执行相同的操作。

In [18]: tips["bucket"] = np.where(tips["total_bill"] < 10, "low", "high")

In [19]: tips
Out[19]: 
 total_bill   tip     sex smoker   day    time  size bucket
0         14.99  1.01  Female     No   Sun  Dinner     2   high
1          8.34  1.66    Male     No   Sun  Dinner     3    low
2         19.01  3.50    Male     No   Sun  Dinner     3   high
3         21.68  3.31    Male     No   Sun  Dinner     2   high
4         22.59  3.61  Female     No   Sun  Dinner     4   high
..          ...   ...     ...    ...   ...     ...   ...    ...
239       27.03  5.92    Male     No   Sat  Dinner     3   high
240       25.18  2.00  Female    Yes   Sat  Dinner     2   high
241       20.67  2.00    Male    Yes   Sat  Dinner     2   high
242       15.82  1.75    Male     No   Sat  Dinner     2   high
243       16.78  3.00  Female     No  Thur  Dinner     2   high

[244 rows x 8 columns]

日期功能

Stata 提供了多种函数来对日期/时间列进行操作。

generate date1 = mdy(1, 15, 2013)
generate date2 = date("Feb152015", "MDY")

generate date1_year = year(date1)
generate date2_month = month(date2)

* shift date to beginning of next month
generate date1_next = mdy(month(date1) + 1, 1, year(date1)) if month(date1) != 12
replace date1_next = mdy(1, 1, year(date1) + 1) if month(date1) == 12
generate months_between = mofd(date2) - mofd(date1)

list date1 date2 date1_year date2_month date1_next months_between

下面显示了等效的 pandas 操作。除了这些函数之外，pandas 还支持其他在 Stata 中不可用的时间序列功能（例如时区处理和自定义偏移）- 请参阅时间序列文档了解更多详情。

In [20]: tips["date1"] = pd.Timestamp("2013-01-15")

In [21]: tips["date2"] = pd.Timestamp("2015-02-15")

In [22]: tips["date1_year"] = tips["date1"].dt.year

In [23]: tips["date2_month"] = tips["date2"].dt.month

In [24]: tips["date1_next"] = tips["date1"] + pd.offsets.MonthBegin()

In [25]: tips["months_between"] = tips["date2"].dt.to_period("M") - tips[
 ....:    "date1"
 ....: ].dt.to_period("M")
 ....: 

In [26]: tips[
 ....:    ["date1", "date2", "date1_year", "date2_month", "date1_next", "months_between"]
 ....: ]
 ....: 
Out[26]: 
 date1      date2  date1_year  date2_month date1_next    months_between
0   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
1   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
2   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
3   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
4   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
..         ...        ...         ...          ...        ...               ...
239 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
240 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
241 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
242 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
243 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>

[244 rows x 6 columns]

选择列

Stata 提供了关键字来选择、删除和重命名列。

keep sex total_bill tip

drop sex

rename total_bill total_bill_2

下面展示了 pandas 中相同的操作。

保留特定列

In [27]: tips[["sex", "total_bill", "tip"]]
Out[27]: 
 sex  total_bill   tip
0    Female       14.99  1.01
1      Male        8.34  1.66
2      Male       19.01  3.50
3      Male       21.68  3.31
4    Female       22.59  3.61
..      ...         ...   ...
239    Male       27.03  5.92
240  Female       25.18  2.00
241    Male       20.67  2.00
242    Male       15.82  1.75
243  Female       16.78  3.00

[244 rows x 3 columns]

删除列

In [28]: tips.drop("sex", axis=1)
Out[28]: 
 total_bill   tip smoker   day    time  size
0         14.99  1.01     No   Sun  Dinner     2
1          8.34  1.66     No   Sun  Dinner     3
2         19.01  3.50     No   Sun  Dinner     3
3         21.68  3.31     No   Sun  Dinner     2
4         22.59  3.61     No   Sun  Dinner     4
..          ...   ...    ...   ...     ...   ...
239       27.03  5.92     No   Sat  Dinner     3
240       25.18  2.00    Yes   Sat  Dinner     2
241       20.67  2.00    Yes   Sat  Dinner     2
242       15.82  1.75     No   Sat  Dinner     2
243       16.78  3.00     No  Thur  Dinner     2

[244 rows x 6 columns]

重命名列

In [29]: tips.rename(columns={"total_bill": "total_bill_2"})
Out[29]: 
 total_bill_2   tip     sex smoker   day    time  size
0           14.99  1.01  Female     No   Sun  Dinner     2
1            8.34  1.66    Male     No   Sun  Dinner     3
2           19.01  3.50    Male     No   Sun  Dinner     3
3           21.68  3.31    Male     No   Sun  Dinner     2
4           22.59  3.61  Female     No   Sun  Dinner     4
..            ...   ...     ...    ...   ...     ...   ...
239         27.03  5.92    Male     No   Sat  Dinner     3
240         25.18  2.00  Female    Yes   Sat  Dinner     2
241         20.67  2.00    Male    Yes   Sat  Dinner     2
242         15.82  1.75    Male     No   Sat  Dinner     2
243         16.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

保留特定列

In [27]: tips[["sex", "total_bill", "tip"]]
Out[27]: 
 sex  total_bill   tip
0    Female       14.99  1.01
1      Male        8.34  1.66
2      Male       19.01  3.50
3      Male       21.68  3.31
4    Female       22.59  3.61
..      ...         ...   ...
239    Male       27.03  5.92
240  Female       25.18  2.00
241    Male       20.67  2.00
242    Male       15.82  1.75
243  Female       16.78  3.00

[244 rows x 3 columns]

删除列

In [28]: tips.drop("sex", axis=1)
Out[28]: 
 total_bill   tip smoker   day    time  size
0         14.99  1.01     No   Sun  Dinner     2
1          8.34  1.66     No   Sun  Dinner     3
2         19.01  3.50     No   Sun  Dinner     3
3         21.68  3.31     No   Sun  Dinner     2
4         22.59  3.61     No   Sun  Dinner     4
..          ...   ...    ...   ...     ...   ...
239       27.03  5.92     No   Sat  Dinner     3
240       25.18  2.00    Yes   Sat  Dinner     2
241       20.67  2.00    Yes   Sat  Dinner     2
242       15.82  1.75     No   Sat  Dinner     2
243       16.78  3.00     No  Thur  Dinner     2

[244 rows x 6 columns]

重命名列

In [29]: tips.rename(columns={"total_bill": "total_bill_2"})
Out[29]: 
 total_bill_2   tip     sex smoker   day    time  size
0           14.99  1.01  Female     No   Sun  Dinner     2
1            8.34  1.66    Male     No   Sun  Dinner     3
2           19.01  3.50    Male     No   Sun  Dinner     3
3           21.68  3.31    Male     No   Sun  Dinner     2
4           22.59  3.61  Female     No   Sun  Dinner     4
..            ...   ...     ...    ...   ...     ...   ...
239         27.03  5.92    Male     No   Sat  Dinner     3
240         25.18  2.00  Female    Yes   Sat  Dinner     2
241         20.67  2.00    Male    Yes   Sat  Dinner     2
242         15.82  1.75    Male     No   Sat  Dinner     2
243         16.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]

按值排序

在 Stata 中，通过sort来进行排序

sort sex total_bill

pandas 有一个DataFrame.sort_values()方法，接受一个要排序的列列表。

In [30]: tips = tips.sort_values(["sex", "total_bill"])

In [31]: tips
Out[31]: 
 total_bill    tip     sex smoker   day    time  size
67         1.07   1.00  Female    Yes   Sat  Dinner     1
92         3.75   1.00  Female    Yes   Fri  Dinner     2
111        5.25   1.00  Female     No   Sat  Dinner     1
145        6.35   1.50  Female     No  Thur   Lunch     2
135        6.51   1.25  Female     No  Thur   Lunch     2
..          ...    ...     ...    ...   ...     ...   ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3
156       46.17   5.00    Male     No   Sun  Dinner     6
59        46.27   6.73    Male     No   Sat  Dinner     4
212       46.33   9.00    Male     No   Sat  Dinner     4
170       48.81  10.00    Male    Yes   Sat  Dinner     3

[244 rows x 7 columns]

字符串处理

查找字符串的长度

Stata 使用 strlen() 和 ustrlen() 函数分别确定 ASCII 和 Unicode 字符串的长度。

generate strlen_time = strlen(time)
generate ustrlen_time = ustrlen(time)

你可以使用Series.str.len()方法找到字符串的长度。在 Python 3 中，所有字符串都是 Unicode 字符串。len 包括尾随空格。使用 len 和 rstrip 来排除尾随空格。

In [32]: tips["time"].str.len()
Out[32]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

In [33]: tips["time"].str.rstrip().str.len()
Out[33]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

查找子串的位置

Stata 使用 strpos() 函数确定字符串中字符的位置。它接受由第一个参数定义的字符串，并搜索你提供的作为第二个参数的子串的第一个位置。

generate str_position = strpos(sex, "ale")

你可以使用Series.str.find()方法在字符串列中找到字符的位置。find 搜索子串的第一个位置。如果找到子串，则该方法返回其位置。如果未找到，则返回 -1。请记住 Python 的索引是从零开始的。

In [34]: tips["sex"].str.find("ale")
Out[34]: 
67     3
92     3
111    3
145    3
135    3
 ..
182    1
156    1
59     1
212    1
170    1
Name: sex, Length: 244, dtype: int64

按位置提取子串

Stata 使用 substr() 函数根据位置从字符串中提取子串。

generate short_sex = substr(sex, 1, 1)

在 pandas 中，你可以使用[]符号通过位置位置提取字符串的子串。请记住 Python 的索引是从零开始的。

In [35]: tips["sex"].str[0:1]
Out[35]: 
67     F
92     F
111    F
145    F
135    F
 ..
182    M
156    M
59     M
212    M
170    M
Name: sex, Length: 244, dtype: object

提取第 n 个单词

Stata 的 word() 函数从字符串中返回第 n 个单词。第一个参数是要解析的字符串，第二个参数指定要提取的单词。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate first_name = word(name, 1)
generate last_name = word(name, -1)

在 pandas 中提取单词的最简单方法是通过空格拆分字符串，然后按索引引用单词。请注意，如果需要，还有更强大的方法。

In [36]: firstlast = pd.DataFrame({"String": ["John Smith", "Jane Cook"]})

In [37]: firstlast["First_Name"] = firstlast["String"].str.split(" ", expand=True)[0]

In [38]: firstlast["Last_Name"] = firstlast["String"].str.rsplit(" ", expand=True)[1]

In [39]: firstlast
Out[39]: 
 String First_Name Last_Name
0  John Smith       John     Smith
1   Jane Cook       Jane      Cook

更改大小写

Stata 的 strupper()、strlower()、strproper()、ustrupper()、ustrlower() 和 ustrtitle() 函数分别更改 ASCII 和 Unicode 字符串的大小写。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate upper = strupper(string)
generate lower = strlower(string)
generate title = strproper(string)
list

等效的 pandas 方法是Series.str.upper()，Series.str.lower()和Series.str.title()。

In [40]: firstlast = pd.DataFrame({"string": ["John Smith", "Jane Cook"]})

In [41]: firstlast["upper"] = firstlast["string"].str.upper()

In [42]: firstlast["lower"] = firstlast["string"].str.lower()

In [43]: firstlast["title"] = firstlast["string"].str.title()

In [44]: firstlast
Out[44]: 
 string       upper       lower       title
0  John Smith  JOHN SMITH  john smith  John Smith
1   Jane Cook   JANE COOK   jane cook   Jane Cook

查找字符串的长度

Stata 使用strlen()和ustrlen()函数分别确定 ASCII 和 Unicode 字符串的长度。

generate strlen_time = strlen(time)
generate ustrlen_time = ustrlen(time)

您可以使用Series.str.len()找到字符串的长度。在 Python 3 中，所有字符串都是 Unicode 字符串。len 包括尾随空格。使用 len 和 rstrip 来排除尾随空格。

In [32]: tips["time"].str.len()
Out[32]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

In [33]: tips["time"].str.rstrip().str.len()
Out[33]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

查找子字符串的位置

Stata 使用strpos()函数确定字符串中字符的位置。这需要由第一个参数定义的字符串，并搜索您提供为第二个参数的子字符串的第一个位置。

generate str_position = strpos(sex, "ale")

您可以使用Series.str.find()方法找到字符串列中字符的位置。find搜索子字符串的第一个位置。如果找到子字符串，则该方法返回其位置。如果未找到，则返回-1。请记住，Python 的索引是从零开始的。

In [34]: tips["sex"].str.find("ale")
Out[34]: 
67     3
92     3
111    3
145    3
135    3
 ..
182    1
156    1
59     1
212    1
170    1
Name: sex, Length: 244, dtype: int64

按位置提取子字符串

Stata 使用substr()函数根据位置从字符串中提取子字符串。

generate short_sex = substr(sex, 1, 1)

在 pandas 中，您可以使用[]符号按位置位置提取字符串的子字符串。请记住，Python 的索引是从零开始的。

In [35]: tips["sex"].str[0:1]
Out[35]: 
67     F
92     F
111    F
145    F
135    F
 ..
182    M
156    M
59     M
212    M
170    M
Name: sex, Length: 244, dtype: object

提取第 n 个单词

Stata 的word()函数从字符串中返回第 n 个单词。第一个参数是要解析的字符串，第二个参数指定要提取的单词。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate first_name = word(name, 1)
generate last_name = word(name, -1)

在 pandas 中提取单词的最简单方法是通过空格拆分字符串，然后按索引引用单词。请注意，如果需要，还有更强大的方法。

In [36]: firstlast = pd.DataFrame({"String": ["John Smith", "Jane Cook"]})

In [37]: firstlast["First_Name"] = firstlast["String"].str.split(" ", expand=True)[0]

In [38]: firstlast["Last_Name"] = firstlast["String"].str.rsplit(" ", expand=True)[1]

In [39]: firstlast
Out[39]: 
 String First_Name Last_Name
0  John Smith       John     Smith
1   Jane Cook       Jane      Cook

更改大小写

Stata 的strupper()、strlower()、strproper()、ustrupper()、ustrlower()和ustrtitle()函数分别更改 ASCII 和 Unicode 字符串的大小写。

clear
input str20 string
"John Smith"
"Jane Cook"
end

generate upper = strupper(string)
generate lower = strlower(string)
generate title = strproper(string)
list

等效的 pandas 方法是Series.str.upper()，Series.str.lower()和Series.str.title()。

In [40]: firstlast = pd.DataFrame({"string": ["John Smith", "Jane Cook"]})

In [41]: firstlast["upper"] = firstlast["string"].str.upper()

In [42]: firstlast["lower"] = firstlast["string"].str.lower()

In [43]: firstlast["title"] = firstlast["string"].str.title()

In [44]: firstlast
Out[44]: 
 string       upper       lower       title
0  John Smith  JOHN SMITH  john smith  John Smith
1   Jane Cook   JANE COOK   jane cook   Jane Cook

合并

下表将用于合并示例：

In [45]: df1 = pd.DataFrame({"key": ["A", "B", "C", "D"], "value": np.random.randn(4)})

In [46]: df1
Out[46]: 
 key     value
0   A  0.469112
1   B -0.282863
2   C -1.509059
3   D -1.135632

In [47]: df2 = pd.DataFrame({"key": ["B", "D", "D", "E"], "value": np.random.randn(4)})

In [48]: df2
Out[48]: 
 key     value
0   B  1.212112
1   D -0.173215
2   D  0.119209
3   E -1.044236

在 Stata 中，要执行合并操作，一个数据集必须在内存中，另一个必须作为磁盘上的文件名引用。相比之下，Python 必须已经将两个DataFrames都加载到内存中。

默认情况下，Stata 执行外连接，合并后两个数据集的所有观测值都保留在内存中。可以通过使用_merge变量中创建的值，仅保留初始数据集、合并数据集或两者的交集中的观测值。

* First create df2 and save to disk
clear
input str1 key
B
D
D
E
end
generate value = rnormal()
save df2.dta

* Now create df1 in memory
clear
input str1 key
A
B
C
D
end
generate value = rnormal()

preserve

* Left join
merge 1:n key using df2.dta
keep if _merge == 1

* Right join
restore, preserve
merge 1:n key using df2.dta
keep if _merge == 2

* Inner join
restore, preserve
merge 1:n key using df2.dta
keep if _merge == 3

* Outer join
restore
merge 1:n key using df2.dta

pandas 的 DataFrames 有一个merge()方法，提供类似的功能。数据不必事先排序，不同的连接类型通过how关键字实现。

In [49]: inner_join = df1.merge(df2, on=["key"], how="inner")

In [50]: inner_join
Out[50]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209

In [51]: left_join = df1.merge(df2, on=["key"], how="left")

In [52]: left_join
Out[52]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

In [53]: right_join = df1.merge(df2, on=["key"], how="right")

In [54]: right_join
Out[54]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209
3   E       NaN -1.044236

In [55]: outer_join = df1.merge(df2, on=["key"], how="outer")

In [56]: outer_join
Out[56]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236

缺失数据

pandas 和 Stata 都有一个表示缺失数据的方式。

pandas 用特殊的浮点值NaN（不是一个数字）表示缺失数据。许多语义是相同的；例如，缺失数据通过数值运算传播，并且默认情况下在聚合中被忽略。

In [57]: outer_join
Out[57]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236

In [58]: outer_join["value_x"] + outer_join["value_y"]
Out[58]: 
0         NaN
1    0.929249
2         NaN
3   -1.308847
4   -1.016424
5         NaN
dtype: float64

In [59]: outer_join["value_x"].sum()
Out[59]: -3.5940742896293765

一个区别是缺失数据不能与其标志值进行比较。例如，在 Stata 中，您可以这样做来过滤缺失值。

* Keep missing values
list if value_x == .
* Keep non-missing values
list if value_x != .

在 pandas 中，Series.isna()和Series.notna()可用于过滤行。

In [60]: outer_join[outer_join["value_x"].isna()]
Out[60]: 
 key  value_x   value_y
5   E      NaN -1.044236

In [61]: outer_join[outer_join["value_x"].notna()]
Out[61]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

pandas 提供了各种方法来处理缺失数据。以下是一些示例：

删除带有缺失值的行

In [62]: outer_join.dropna()
Out[62]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前一行向前填充

In [63]: outer_join.ffill()
Out[63]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [64]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[64]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

删除带有缺失值的行

In [62]: outer_join.dropna()
Out[62]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前一行向前填充

In [63]: outer_join.ffill()
Out[63]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [64]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[64]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

分组

聚合

Stata 的collapse可以用于按一个或多个关键变量分组，并在数值列上计算聚合。

collapse (sum) total_bill tip, by(sex smoker)

pandas 提供了灵活的groupby机制，允许进行类似的聚合。查看 groupby 文档以获取更多详细信息和示例。

In [65]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()

In [66]: tips_summed
Out[66]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 Stata 中，如果需要将组聚合与原始数据集一起使用，通常会使用bysort和egen()。例如，通过吸烟者组减去每个观测值的均值。

bysort sex smoker: egen group_bill = mean(total_bill)
generate adj_total_bill = total_bill - group_bill

pandas 提供了一个转换机制，允许这些类型的操作在一个操作中简洁地表达。

In [67]: gb = tips.groupby("smoker")["total_bill"]

In [68]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")

In [69]: tips
Out[69]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656

[244 rows x 8 columns]

按组处理

除了聚合，pandas 的groupby还可以用于复制 Stata 中的大多数其他bysort处理。例如，以下示例列出了当前排序顺序中每个性别/吸烟者组中的第一个观测值。

bysort sex smoker: list if _n == 1

在 pandas 中，这样写：

In [70]: tips.groupby(["sex", "smoker"]).first()
Out[70]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

聚合

Stata 的collapse可以用于按一个或多个关键变量分组，并在数值列上计算聚合。

collapse (sum) total_bill tip, by(sex smoker)

pandas 提供了灵活的groupby机制，允许类似的聚合。查看 groupby 文档获取更多详细信息和示例。

In [65]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()

In [66]: tips_summed
Out[66]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 Stata 中，如果需要将组聚合与原始数据集一起使用，通常会使用bysort和egen()。例如，通过吸烟者组减去每个观察的平均值。

bysort sex smoker: egen group_bill = mean(total_bill)
generate adj_total_bill = total_bill - group_bill

pandas 提供了一个 Transformation 机制，允许这些类型的操作在一个操作中简洁地表达。

In [67]: gb = tips.groupby("smoker")["total_bill"]

In [68]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")

In [69]: tips
Out[69]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656

[244 rows x 8 columns]

按组处理

除了聚合，pandas 的groupby还可以用于复制 Stata 中的大多数其他bysort处理。例如，以下示例列出了按性别/吸烟者组排序的当前排序顺序中的第一个观察。

bysort sex smoker: list if _n == 1

在 pandas 中，这样写：

In [70]: tips.groupby(["sex", "smoker"]).first()
Out[70]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

其他考虑

磁盘与内存

pandas 和 Stata 都仅在内存中运行。这意味着 pandas 可以加载的数据大小受限于您计算机的内存。如果需要进行离线处理，一种可能性是dask.dataframe库，它为磁盘上的DataFrame提供了一部分 pandas 功能。

磁盘与内存

标签：...,教程,No,bill,Dinner,2.2,tips,Male,Pandas
From： https://www.cnblogs.com/apachecn/p/18154740

Pandas 2.2 中文官方教程和指南（六）

与 Stata 的比较

数据结构

通用术语翻译

DataFrame

Series

Index

复制 vs. 原地操作

数据输入/输出

从值构建 DataFrame

读取外部数据

限制输出

导出数据

数据操作

列操作

过滤

如果/然后逻辑

日期功能

选择列

保留特定列

删除一列

重命名列

按值排序

字符串处理

查找字符串长度

查找子字符串的位置

根据位置提取子字符串

提取第 n 个单词

更改大小写

合并

缺失数据

删除具有缺失值的行

从前面的行向前填充

用指定值替换缺失值

分组

聚合

转换

按组处理

其他考虑

磁盘 vs 内存

数据结构

通用术语翻译

DataFrame

Series

Index

复制 vs. 原地操作

通用术语翻译

DataFrame

Series

Index

复制 vs. 就地操作

数据输入/输出

从数值构建 DataFrame

读取外部数据

限制输出

导出数据

从值构建 DataFrame

读取外部数据

限制输出

导出数据

数据操作

列上的操作

筛选

If/then 逻辑

日期功能

选择列

保留特定列

删除一列

重命名列

按值排序

列操作

筛选

If/then 逻辑

日期功能

选择列

保留特定列

删除列

重命名列

保留特定列

删除列

`DataFrame`

`Series`

`Index`

`DataFrame`

`Series`

`Index`

`DataFrame`

`Series`

`Index`