绝对差值减去百分比

时间：2024-07-21 15:18:51浏览次数：11

标签：python databricks percentage spark-notebook

我有一个 DataFrame 来查找 python 中两个源之间的绝对差异百分比。但是当我使用下面的代码时，很少有列给出 -%（负百分比）

我已经检查了显示负百分比数据类型的列在两个源中是否相同。

任何人都可以帮助我找出答案为什么？

    # Define the columns you want to process
columns = ['a', 'b', 'c', 'd']

# Create the results DataFrame
results_df = pd.DataFrame()

results_df['date'] = c_df['date']
results_df['id'] = c_df['id']

for col in columns:
    # calculating the absolute difference
    diff = np.abs(c_df[f'{col}_s1'] - c_df[f'{col}_s2'])

    # calculating mean for snowflake columns
    norm_diff = abs(c_df[f'{col}_s1'].mean())

    # Avoid division by zero
    if norm_diff == 0:
        percentage = np.zeros(len(diff))
    else:
        # calculating percentage difference b/w the columns in both datasets
        percentage = (diff / norm_diff) * 100

    # Round the percentage_difference and add % symbol
    results_df[col] = [f"{round(diff)}%" for diff in percentage]

display(results_df)

我为norm_diff添加了abs，它工作正常。

结果是这样的。

a	b	c	d
0%\| \|\|5%	10%	-5%	10%
100%	-50%	200%	200%

出现负百分比是因为在计算 norm_diff 时没有考虑 c_df[f'{col}_s1'] 的符号。如果 c_df[f'{col}_s1'].mean() 是负数，那么 norm_diff 也会是负数，从而导致最终百分比为负数。

已通过为 norm_diff 添加 abs() 函数解决了这个问题，这确保了除数始终为正数。

但是，的代码仍然存在一些问题：

格式化问题: 在循环的最后一行使用 f"{round(diff)}%" 来格式化百分比。这会导致问题，因为 diff 包含实际差异，而不是百分比。应该使用 percentage 变量而不是 diff 来格式化结果。
不必要的 zeros 数组 : 当 norm_diff 为 0 时，创建了一个 zeros 数组。这可能会降低性能，尤其是在处理大型数据集时。可以在计算百分比之前直接检查 norm_diff 是否为 0，并相应地设置百分比。

以下代码修复了上述问题：

import pandas as pd
import numpy as np

# 示例数据
c_df = pd.DataFrame({
    'date': ['2023-03-01', '2023-03-02'],
    'id': [1, 2],
    'a_s1': [10, 20],
    'a_s2': [20, 10],
    'b_s1': [100, 200],
    'b_s2': [200, 100],
    'c_s1': [-10, -20],
    'c_s2': [-5, -40],
    'd_s1': [10, 20],
    'd_s2': [20, 40],
})

# 定义要处理的列
columns = ['a', 'b', 'c', 'd']

# 创建结果 DataFrame
results_df = pd.DataFrame()

results_df['date'] = c_df['date']
results_df['id'] = c_df['id']

for col in columns:
    # 计算绝对差
    diff = np.abs(c_df[f'{col}_s1'] - c_df[f'{col}_s2'])

    # 计算 snowflake 列的平均值
    norm_diff = abs(c_df[f'{col}_s1'].mean())

    # 计算百分比差异
    percentage = np.zeros(len(diff))  # 初始化为 0
    mask = norm_diff != 0  # 找到 norm_diff 不为 0 的位置
    percentage[mask] = (diff[mask] / norm_diff) * 100  # 只在这些位置计算百分比

    # 将 percentage_difference 四舍五入并添加 % 符号
    results_df[col] = [f"{p:.0f}%" for p in percentage]

print(results_df)

这个代码版本应该能够解决遇到的负百分比问题，并提供更准确的结果。

标签：python,databricks,percentage,spark-notebook
From： 78584154

python 中两体问题的集成
我正在尝试使用python和pygame创建一个二体Sim作为更大项目目标的第一阶段，以在屏幕上显示对象。我目前的主要问题是，轨道卫星在目标行星周围倾斜时它应该处于稳定的320公里圆形轨道上。我为四种不同的集成制作了四种不同的功能。Euler、Leapfrog、Verlet和RK4。......
如何保护Python代码不被用户读取？
我正在用Python开发一个软件，该软件将分发给我雇主的客户。我的雇主希望使用有时间限制的许可证文件来限制软件的使用。如果我们分发.py文件甚至.pyc文件，则很容易（反编译并）删除检查另一个方面是我的雇主不希望我们的客户读取代码，担心代码可能被窃取或......
无法更新 Python MySQL 中的tinyint
我无法使用以下代码更新我的Tinyint值（valid_state）：importmysql.connectormydb=mysql.connector.connect(host="localhost",user="mahdi",passwd="Abcd@1324",database="mycustomers")mycursor=mydb.cursor()sql="UPDATE`......
Cython：将 2D 数组从 Python 传递到 C 并检索它
我正在尝试使用Cython用C语言构建相机驱动程序的包装器。我是Cython的新手（两周前开始）。经过一番努力，我可以成功开发结构体、一维数组的包装器，但现在我陷入了二维数组的困境。相机的CAPI之一采用2D数组指针作为输入，并将捕获的图像分配给它。该函数需要从Python调......
如何使用python将大文件上传到Onedrive
importrequestsfrommsalimportPublicClientApplicationfromdotenvimportload_dotenvimportos#Loadenvironmentvariablesload_dotenv()#ConfigurationfromenvironmentvariablesCLIENT_ID=os.getenv('CLIENT_ID')#TENANT_IDisnotused......
【2024最新华为OD-C/D卷试题汇总】[支持在线评测] LYA的生日派对座位安排(200分) - 三
......
基于Java python《学生手册》线上考试系统设计与实现【源码+文档+PPT】
......
基于python的儿童慈善会管理系统设计与实现【源码+文档+ppt】
......
用 python 抓取谷歌结果统计
我想从谷歌获取关键字的估计结果数。我使用Python3.3并尝试使用BeautifulSoup和urllib.request完成此任务。到目前为止，这是我的简单代码defnumResults():try:page_google='''http://www.google.de/#output=search&sclient=psy-ab&q=pokerbonus&oq=pokerbonus&gs......
【python】Python高阶函数--sorted函数的高阶用法解析与应用实战
✨✨欢迎大家来到景天科技苑✨✨......

绝对差值减去百分比

相关文章

赞助商

阅读排行