pd.to_datetime() 不能始终如一地转换对象

时间：2024-07-27 07:12:33浏览次数：14

标签：python pandas amazon-s3

我一直在使用 AWS S3 存储桶中存在的数据 (csv)。当我提取数据时，我必须将所有列转换为其正确的 dtypes。

除 datetime64 类型外，所有其他 dtypes 都正常工作。在下面的第一张图片中 - 我正在打印provider_dob，这是所需的格式，datetime64

但是，我稍后在我的代码中打印了dtypes并说它现在是一个对象？下面是我的代码片段。

我不知道如何合理化这一点，需要第二双眼睛。

你遇到的问题很常见，原因在于 pandas NaT (Not a Time) 的处理方式。虽然 pd.to_datetime() 可以成功地将大部分日期字符串转换为 datetime64 类型，但它会将无法解析的日期字符串（例如空字符串或格式错误的日期）转换为 NaT。

NaT 本身并不是 datetime64 类型，而是 pandas 用来表示缺失时间戳的特殊标记。 当一列同时包含 datetime64 和 NaT 时，pandas 会将整列的数据类型显示为 object ，以便容纳 NaT。

解决方法：

数据清洗： 在使用 pd.to_datetime() 之前，先检查并清理数据中的缺失值或格式错误的日期。你可以使用以下方法：
填充缺失值： 使用 fillna() 方法用特定日期或平均日期填充缺失值。

python df['provider_dob'] = pd.to_datetime(df['provider_dob']).fillna(pd.Timestamp('1900-01-01'))
删除包含缺失值的行： 使用 dropna() 方法删除包含 NaT 的行。

python df.dropna(subset=['provider_dob'], inplace=True)
转换错误格式： 使用 errors 参数控制 pd.to_datetime() 的行为。 errors='coerce' 会将无法解析的日期转换为 NaT，而 errors='raise' 会引发错误。

python df['provider_dob'] = pd.to_datetime(df['provider_dob'], errors='coerce')
数据类型转换： 在清理数据后，如果确认所有日期字符串都已成功转换为 datetime64，可以使用 astype() 方法将整列的数据类型强制转换为 datetime64[ns]。

python df['provider_dob'] = df['provider_dob'].astype('datetime64[ns]')

总结：

为了避免 pd.to_datetime() 导致数据类型不一致的问题，你需要先清洗数据，处理好缺失值和格式错误的日期，然后再进行类型转换。

标签：python,pandas,amazon-s3
From： 78795004

如何在 Python 中加载站点的所有资源，包括 AJAX 请求等？
我知道如何使用Python请求网站并读取其文本。过去，我曾尝试使用像BeautifulSoup这样的库来发出对网站上链接的所有请求，但这并没有得到看起来不像完整URL的内容，例如AJAX请求和大多数对原始域（因为“http://example.com”将丢失，更重要的是，它不是<ahref='url'>......
使用Python进行PDF旋转
使用python旋转扫描的pdf后，它工作得很好，但将pdf发送给第三方后，第三方仍然将pdf检测为90度pdf有什么办法可以解决旋转和这个问题importPyPDF2withopen('input.pdf','rb')asfile:#CreateaPDFreaderobjectreader=PyPDF2.PdfReader(file)......
Python win32serviceutil QueryServiceStatus：返回值是什么意思？
我正在学习使用pywin32，并尝试在64位Python3.6.4上使用win32serviceutil模块以下代码：importwin32serviceutilasserviceserviceStatus=service.QueryServiceStatus("WinDefend")print(serviceStatus)返回以下元组：(16,4,197,0,0,0,0)我对wind......
Python request-html 未下载 Chromium
importrequestsfrombs4importBeautifulSoupfromrequests_htmlimportHTMLSessionurl="https://dmarket.com/ingame-items/item-list/csgo-skins?title=recoil%20case"sesion=HTMLSession()response=sesion.get(url)response.html.render()soup=B......
VS Code 不改变 python 环境
我正在使用VS-Code和anaconda环境作为python解释器。我通过ctrl+shift+`选择准确的anaconda基础环境，它也反映在vscode的下侧面板中。但是，当我检查python版本时，它显示我系统的默认python环境3.7.9如果您看到下面的截图，anaconda环境是3.......
使用 Python 打开保存为 Parquet 文件中元数据的 R data.table
使用R，我创建了一个Parquet文件，其中包含一个data.table作为主要数据，另一个data.table作为元数据。library(data.table)library(arrow)dt=data.table(x=c(1,2,3),y=c("a","b","c"))dt2=data.table(a=22222,b=45555)attr(dt,&......
为什么警告：FutureWarning：设置不兼容的数据类型的项目已被弃用，并且会在 pandas 的未来
鉴于这种情况，我不明白为什么要提出这个特殊警告。将函数应用于数字系列时，它会引发“FutureWarning：设置不兼容dtype的项目已被弃用，并将在pandas的未来版本中引发错误。值'[011...100]'具有dtype与int32不兼容，请先显式转换为兼容的数据类型。"这是正在应用的......
Python 需要 Windows 长路径
我尝试运行此安装：pip3installmsgraph-sdk它给了我这个错误：它说我需要使用此链接启用Windows长路径：https://learn.microsoft.com/en-us/windows/win32/fileio/maximum-file-path-limitation?tabs=registry#enable-long-paths-in-windows-10-versi......
Python griddata() 和 Matlab griddata()：某些网格点的结果不同
在将一些（相当大的物理）Matlab代码转换为Python时，我偶然发现了这种情况。当对相同的二维离散数据进行插值时，Python/Scipy的griddata()函数给出的结果与Matlab的对应函数不同。griddata()Matlab示例代码：Python示例代码：%Samplepoints(x,y):7x5=3......
Ebay Python SDK 仅在特定项目类别上返回错误
我在一个项目中使用ebaySDK一段时间了。最近我尝试导入一些商品，例如手表、手机壳等...并且我使用了eBay自己通过eBay返回的英国商店页面上的类别ID他们的“get_category_suggestions”API端点，但eBay似乎有选择地决定拒绝某些项目并引发服务器错误！为了测试，我做了......

pd.to_datetime() 不能始终如一地转换对象

相关文章

赞助商

阅读排行