欢迎来到雲闪世界.2024 年 5 月,随着 GPT-4o 的激动人心的发布,OpenAI 宣布对 ChatGPT 中的数据分析进行改进,包括提供交互式表格和图表,以及与 Google Drive 和 Microsoft OneDrive 的集成。
在本文中,我将评估这些新功能并展望使用 ChatGPT 进行数据分析的未来。
ChatGPT 数据分析简史
ChatGPT 进军数据分析的旅程始于 2023 年 3 月推出的代码解释器,并于 2023 年 7 月向 Plus 用户推出。
后来,OpenAI 将其重新命名为 Advanced Data Analysis,然后是 Data Analysis,现在是Data Analyst,作为官方 GPT 之一。今天,你可以使用这个独立的 Data Analyst GPT 或直接使用提示 ChatGPT 来执行数据分析功能。
OpenAI 一直在不断改进这些功能。值得注意的是,它于 2024 年 5 月宣布改进 ChatGPT 中的数据分析,增强了与表格和图表交互的能力。
您可以在这里找到他们最新的帮助中心文章:使用 ChatGPT 进行数据分析。
评估最近的聊天GPT数据分析增强功能
在我之前的文章《评估数据科学中的 ChatGPT:以客户流失预测分析为例》中,我介绍了一个使用 ChatGPT 的真实数据科学用例。尽管它提供了快速而合乎逻辑的分析,但我得出的结论是,由于数据准备、数据科学专业知识和业务知识方面的差距,ChatGPT 尚未准备好取代熟练的数据科学家。
在本节中,我将评估最新功能:与 ChatGPT 中的表格和图表进行交互。
1. 加载和预览数据集
让我们从一个实际的例子开始。我将使用Kaggle上一家电子商务公司的交易数据集(CC0 许可证)。假设我是一名销售经理,希望分析此数据集以识别销售增长机会。这是我的提示:
### 背景
我是一家英国电子商务(在线零售)公司的销售经理。
这家位于伦敦的商店自 2007 年以来一直通过网站销售成人和儿童礼品和家居用品。
他们的客户来自世界各地,通常直接为自己购买。
还有一些小企业批量购买并通过零售店渠道卖给其他客户。
### 数据集
我有一个一年的销售交易数据集。
该数据集包含 500K 行和 8 列。
以下是每列的描述。
- TransactionNo(分类):定义每笔交易的六位唯一编号。代码中的字母“C”表示取消。
- 日期(数字):生成每笔交易的日期。
- ProductNo(分类):用于标识特定产品的五位或六位唯一字符。
- 产品(分类):产品/物品名称。
- 价格(数字):每件产品每单位的价格,以英镑(£)为单位。
- 数量(数字):每笔交易每种产品的数量。与取消的交易相关的负值。
- CustomerNo(分类):定义每个客户的五位唯一数字。
- Country(分类):客户所在国家/地区的名称。
数据集中有一小部分订单取消。
这些取消大部分是由于某些产品缺货。
在这种情况下,客户倾向于取消订单,因为他们希望一次性交付所有产品。
### 目标
我的目标是使用此数据集来获取见解并制定销售策略以推动销售增长。
您今天正在协助我分析这个数据集。
请帮我加载数据集。
以前,将数据集上传到 ChatGPT 只会显示一个文件图标。但现在,ChatGPT 创建了一个交互式表格,您可以将其展开到全屏视图以更仔细地查看数据。它还提供建议提示,引导您更深入地了解数据。
此外,您现在可以从 Google Drive 或 Microsoft OneDrive 上传数据文件到 ChatGPT,从而使文件管理和共享更加容易,尤其是对于团队或企业用户而言。
2. 生成和自定义可视化
接下来,让我们问一个简单但重要的问题:“分析每月的销售趋势”。ChatGPT 生成了一个简单的折线图,我可以扩展它并与之交互。
首先,当您将鼠标悬停在点上时,它会在工具提示中显示值。
其次,您可以通过单击右上角的设置图标来更改线条颜色,并使用您喜欢的配色方案轻松下载 PNG 格式的图表。
但是,并非所有可视化类型都受支持。例如,我要求 ChatGPT 在一张图表中绘制月销售额和交易数量。它正确生成了图表,但不是交互式格式。
根据 OpenAI 的帮助中心文章,
“目前,大多数情况下只有条形图、饼图、散点图和折线图具有交互性。ChatGPT 可以生成多种非交互式图表,包括:直方图、散点图、箱线图 (Box-and-Whisker Plots)、热图、面积图、雷达图、树形图、气泡图和瀑布图。”
尽管折线图被列为受支持的类型,但更复杂或更细微的折线图(例如带有两个轴)仍然保持静态。
3.观察和参考表格
现在让我们尝试与表格交互。我展开了 ChatGPT 计算的月度销售和交易表,单击第 12 行,并要求 ChatGPT 调查 11 月份的销售激增情况。这是我们在查看业务指标时常见的数据问题。您可以看到聊天中引用了“第 12 行”,这有助于 ChatGPT 了解上下文。它合理地回应了 11 月份最畅销产品的列表及其对激增的假设。
您还可以选择一组单元格。例如,我选择了排名前 10 位的产品,并要求 ChatGPT 显示它们的月度销售趋势,以查看它们是否都在 11 月出现了销售高峰。ChatGPT 捕获了 10 种产品的列表,并提供了它们的月度趋势和见解。
交互式表格和图表的用例
上面我们测试了 ChatGPT 中与表格和图表交互的新功能。我认为,这次更新主要针对非数据专业人士,降低他们进行数据分析的门槛。
- 效率:用户现在可以使用交互式表格以更像 Excel 的方式探索数据,但效率提高了 10 倍。在我的示例中,在 Excel 中创建月度销售趋势图表需要几个步骤 - 创建一个计算销售额(数量 x 价格)的新列,透视表格以按月计算总销售额,然后生成折线图。但现在,您只需与 ChatGPT 交谈即可完成此操作。
- 引导分析:建议的提示充当数据分析助手,在用户不确定下一步该怎么做时引导他们更深入地探索数据。
- 演示用的视觉效果:自定义可视化功能使非技术利益相关者更容易准备演示用的数据证据来支持他们的业务决策。
ChatGPT 数据分析的发展方向是什么?
那么,您对这些更新有何感想?老实说,尽管取得了进步,但我发现当前的交互有些受限,感觉像是未来更新的 MVP。从字里行间,我感觉 OpenAI 正在瞄准一些雄心勃勃的目标。这是我的大胆猜测:OpenAI 可能正在构建基于对话的商业智能 (BI) 工具。
以下是一些线索: