识别二维列表/列表列表中的空列表

时间：2024-07-23 09:36:38浏览次数：11

我有一个包含 10000 个客户评分的 Excel 文件。每行都是一个评级（第 1 行 = 评级 1；第 2 行 = 评级 2，...）。我将它们导入 Jupyter Notebook 并清理它们。（词形化、删除停用词、...）结果如下所示：

print(data_lemmatized[:2])
[ [ ], ["practical", "recommendation"], ["miserable", "confusing"], ... ]

由于某些评分非常短，例如只有一个表情符号，因此此处列表中的列表为空。导出到 Excel 时，不会显示这些空列表。导出后不再是10000行，而是只有9000行。这使得对作者的分配变得不可能。你能帮我找到一种导出或识别空行的方法吗？

（我尝试在Python中的每个列表中添加一个唯一的字符。例如数字“77777”，它不会出现在任何其他客户评级。但是，此数字仅添加到第一个和所有填充的列表中。）

可以使用多种方法识别或筛选二维列表中的空列表：

1. 列表推导:

这是一种简洁的方法，可以创建一个只包含非空列表的新列表：

data_no_empty = [lst for lst in data_lemmatized if lst]

此代码遍历 data_lemmatized 中的每个列表，如果该列表不为空，则将其添加到 data_no_empty 列表中。

2. 循环和条件语句:

这种方法更详细，可以更好地控制要对空列表执行的操作：

data_cleaned = []
for lst in data_lemmatized:
    if lst:  # 如果列表不为空
        data_cleaned.append(lst)
    else:
        # 处理空列表，例如：
        print("发现一个空列表！")

此代码遍历 data_lemmatized 中的每个列表，如果该列表不为空，则将其添加到 data_cleaned 列表中。否则，它将执行在 else 块中指定的任何操作，例如打印消息或将占位符值添加到新的列表中。

3. filter 函数:

这种方法利用 Python 内置的 filter 函数来创建只包含非空列表的新列表：

data_no_empty = list(filter(None, data_lemmatized))

此代码使用 filter 函数从 data_lemmatized 列表中删除所有计算结果为 False 的元素（在本例中为空列表）。

导出到 Excel：

使用上述任何方法获取非空列表列表后，可以使用 pandas 库轻松将其导出到 Excel：

import pandas as pd

# ... (使用上述方法之一获取 data_no_empty)

df = pd.DataFrame(data_no_empty)
df.to_excel("cleaned_ratings.xlsx", index=False, header=False)

这将创建一个名为 "cleaned_ratings.xlsx" 的 Excel 文件，其中包含所有非空列表，每行一个列表。 index=False 和 header=False 参数分别用于防止写入索引和标题行。

选择最适合的方法，并将其集成到的代码中以识别和处理空列表。

标签：python,list,jupyter-notebook
From： 78780904

python接口自动化（四十）- logger 日志 - 下（超详解）
宏哥微信粉丝群：https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介按照上一篇的计划，这一篇给小伙伴们讲解一下：（1）多模块使用logging，（2）通过文件配置logging模块，（3）自己封装一个日志（logging）类。可能有的小伙伴在这里会有个疑问一个logging为什么分两篇的篇幅......
Python面试题：使用NumPy进行高效数组运算
NumPy是Python中进行高效数组运算的基础库。以下是一些示例，展示了如何使用NumPy进行高效的数组运算，包括创建数组、数组操作、数学运算以及一些高级操作。安装NumPy如果你还没有安装NumPy，可以通过以下命令进行安装：pipinstallnumpy示例代码1.创建数组import......
Python面试题：使用Matplotlib和Seaborn进行数据可视化
使用Matplotlib和Seaborn进行数据可视化是数据分析中非常重要的一部分。以下示例展示了如何使用这两个库来创建各种图表，包括基本的线图、柱状图、散点图和高级的分类数据可视化图表。安装Matplotlib和Seaborn如果你还没有安装这两个库，可以使用以下命令进行安装：pipins......
20、Python之容器：红楼主角都有谁？10行代码生成《红楼梦》词云图
引言Python系列前面的文章中，我们介绍了Python中容器的基本使用，上一篇中，我们又重点介绍了Counter计数器的使用。这些介绍，应该足以应付日常的工作需求了。在今天的文章中，我想以词云图的生成这个综合案例，巩固一下前面关于容器、字典推导式、Counter的使用。同时，介绍两个比较好......
使用snowflake.connector 3.0.3上的密钥对从python连接到snowflake
我正在尝试使用Snowflake.connector包从我的Python代码连接到Snowflake。不幸的是，由于遗留代码，我只能在python3.7.3上使用Snowflake连接器版本3.0.3，并且无法升级我确实设法从我自己的计算机进行连接，使用：con=Snowflake.connector。连接（...私有密钥文件=......
python 文件（txt）操作
我有一个txt文件，其中包含一列（大约2000个）单词。每个单词只用一个新行分隔。我想将所有这些单词存储在一个数组中words.txt文件的示例：applebananaorange我尝试过的代码：importrandomwithopen('E:/Code/learn/Projects/word-guessing-game/words.txt','r')a......
matplotlib与Python不兼容问题
“我使用的是Matplotlib版本3.7.2。Anaconda的Spyder中的Python版本是3.8.18。当我运行importmatplotlib.pyplotasplt行时，出现错误module'matplotlib'hasnoattribute'rcParams'。当我尝试将Matplotlib和matplotlib.base包从当前的3.7.2版本升级到3.8......
使用 json 配置文件进行 Python 日志记录
我玩弄了日志模块，发现了一些我不太清楚的事情。首先，因为这是一个大程序，我希望代码尽可能简单，因此我使用了json配置文件.{"version":1,"disable_existing_loggers":false,"formatters":{"simple":{"format":"%(asctime)s-%(name)s......
Python随机库：从帕累托分布进行模拟（使用形状和尺度参数）
根据Python文档，random.paretovariate(alpha)模拟帕累托分布，其中alpha是形状参数。但帕累托分布同时采用形状和尺度参数。如何从指定这两个参数的分布中进行模拟？你说的对，帕累托分布是由形状和尺度参数定义的，而random.paretovariate(alpha)函数只接受形状参数......
跳过 Python Spark Pyspark Databricks 未知字段异常中的不良记录
我想知道是否有人知道如何跳过我们从json文件获取的记录这是错误[UNKNOWN_FIELD_EXCEPTION.NEW_FIELDS_IN_RECORD_WITH_FILE_PATH]在解析过程中遇到未知字段：这是失败的代码sent=spark.readStream.format('cloudFiles')\.option('cloudFiles.format','json')......

识别二维列表/列表列表中的空列表

相关文章

赞助商

阅读排行