首页 > 编程问答 >Databricks Pyspark 解析连接字符串

Databricks Pyspark 解析连接字符串

时间:2024-07-21 07:57:21浏览次数:17  
标签:python parsing pyspark databricks

有没有一种简单的方法来解析这种格式的连接字符串?

HOST=HostName;Port=1234;ServiceName=Database;USer ID=User1;Password=Password123;

我需要解析主机和端口、数据库、用户和密码,并将它们分配给单独的变量。


import re

def 解析连接字符串(conn_str):
    """解析连接字符串并返回一个包含主机、端口、数据库、用户和密码的字典。

    Args:
        conn_str: 连接字符串。

    Returns:
        一个包含主机、端口、数据库、用户和密码的字典,如果无法解析连接字符串,则返回 None。
    """
    match = re.match(r"HOST=(.*?);Port=(.*?);ServiceName=(.*?);USer ID=(.*?);Password=(.*?);", conn_str)
    if match:
        return {
            "host": match.group(1),
            "port": match.group(2),
            "database": match.group(3),
            "user": match.group(4),
            "password": match.group(5)
        }
    else:
        return None


conn_str = "HOST=HostName;Port=1234;ServiceName=Database;USer ID=User1;Password=Password123;"
conn_dict = 解析连接字符串(conn_str)

if conn_dict:
    host = conn_dict["host"]
    port = conn_dict["port"]
    database = conn_dict["database"]
    user = conn_dict["user"]
    password = conn_dict["password"]

    print(f"主机:{host}")
    print(f"端口:{port}")
    print(f"数据库:{database}")
    print(f"用户:{user}")
    print(f"密码:{password}")
else:
    print("无法解析连接字符串。")

这段代码首先使用 re.match 函数匹配连接字符串中的各个部分。如果匹配成功,则将提取到的值存储在一个字典中,并将其返回。否则,返回 None

代码解释:

  1. re.match(r"HOST=(.*?);Port=(.*?);ServiceName=(.*?);USer ID=(.*?);Password=(.*?);", conn_str) :
  2. 此代码使用正则表达式匹配连接字符串。
  3. (.*?) 是一个非贪婪匹配组,用于捕获每个键值对的值。
  4. HOST= , Port= , ServiceName= , USer ID= , 和 Password= 用于匹配各个键。

  5. if match: : 如果正则表达式匹配成功,则执行以下代码块。

  6. return { "host": match.group(1), ... } :

  7. 创建一个字典,将提取的值存储在相应的键下。
  8. match.group(1) match.group(2) 等用于访问捕获组的值。

  9. else: return None : 如果正则表达式匹配失败,则返回 None

  10. 代码的其余部分 :

  11. 检查 conn_dict 是否为 None
  12. 如果不为 None ,则从字典中提取各个值并打印出来。
  13. 否则,打印错误消息。

这段代码提供了一种解析特定格式连接字符串的简单方法。可以根据需要修改正则表达式和代码,以处理不同的连接字符串格式。

标签:python,parsing,pyspark,databricks
From: 78765302

相关文章

  • 如何在Python中给jupyter单元标准输入?
    我正在尝试在接受用户输入的jupyter笔记本上运行一个程序,但我不知道如何让它读取标准输入。例如,如果我使用shift-enter:a=input()print(a)运行代码,则单元格指示它正在运行,但不接受我的输入。我如何让它接受输入?你遇到的问题是Jupyternotebook中的代码单元默认......
  • Python:如何从 csvreader 列表中删除括号和单引号?
    Pythonn00b在这里。尝试使用csvreader从文件导入数组并打印一个值,但它添加了括号和单引号。这是我的代码:importrandomimportcsvwithopen('crimes.csv','r')ascsvfile:crimes=list(csv.reader(csvfile))hello=["Hello","Greetings","Hi&q......
  • Python Pandas - 读取 CSV 或 Excel
    我允许用户上传CSV或Excel文件。我正在使用pandas读取文件并创建数据框。由于我无法预测用户将上传哪种文件类型,因此我将pd.read_csv()和pd.read_excel()包装在try/except块中。ifform.validate_on_submit():input_filename=secure_filename(form.file.da......
  • 如何在 python 脚本中调用 robocopy 来批量复制多个文件夹?
    我正在尝试在网络驱动器之间移动多个大文件夹(>10Gb、>100个子文件夹、>2000个文件)。我尝试过在python中使用Shutil.copytree命令,它工作得很好,只是由于不同的原因它无法复制一小部分(<1%的文件)。我相信robocopy对我来说是最好的选择,因为我可以创建一个记录传输过......
  • 如何在Python中使用装饰器动态创建类方法?
    我正在开发一个Python项目,我需要在运行时动态地为类创建方法。我想使用装饰器根据一些外部配置将这些方法添加到类中。要求是:装饰器应该从外部配置(例如字典)读取方法定义。装饰器应该动态地将这些方法添加到类中。每个生成的方法都应具有配置中指定的自己唯一的实现。以......
  • python 中的可扩展视频文件完整性验证
    我的目录包含约100万个视频文件,嵌套在100个子目录下。我想编写一个python脚本来验证这些文件没有损坏,然后删除损坏的文件。做到这一点最有效的方法是什么?它运行的机器有64个cpu核心。当然,以下是如何在Python中构建可扩展视频文件完整性验证器的步骤,该验证器可以......
  • 除了curses之外,是否有一个python包可以轻松控制终端的输出?
    我现在正在处理一些小项目,我对GUI的偏好是终端中漂亮的文本界面。我宁愿不强迫用户处理Windowscurses二进制文件,所以我正在寻找不同的选项。我已经发现了asciimatics,但我想考虑所有可能的选择。如果有人有任何经验或知道解决此用例的包,我将不胜感激。谢谢你说的没错......
  • 当值来自函数 python unittest 时,如何模拟全局变量
    我必须在python中模拟全局变量,但变量值来自另一个函数。当我导入文件时,这个函数正在运行,但我想要那里的模拟值。secrets.pyimporttracebackimportloggingimportboto3importosimportjsonlogger=logging.getLogger()logger.setLevel(logging.INFO)secret_......