如何过滤 pandas 数据帧以查找包含给定列表中所有子字符串的字符串

时间：2024-07-28 04:24:25浏览次数：8

标签：python pandas dataframe

我试图过滤掉数据帧的行，其中名称“question”下的字符串列包含给定列表中的所有子字符串。也就是说，如果给定的子字符串列表是 ['King', 'England'] ，那么我需要保留数据框中 df.question 中的字符串同时包含 King 和 England 的所有行。

此代码执行时无需任何问题并打印出布尔值：

print(all([word in df.question[0] for word in ['King', 'England']]))

但是此代码会导致以下错误：

print(df[all([word in df.question for word in ['King', 'England']])])

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
File ~\anaconda3\Lib\site-packages\pandas\core\indexes\base.py:3805, in Index.get_loc(self, key)
   3804 try:
-> 3805     return self._engine.get_loc(casted_key)
   3806 except KeyError as err:

File index.pyx:167, in pandas._libs.index.IndexEngine.get_loc()

File index.pyx:196, in pandas._libs.index.IndexEngine.get_loc()

File pandas\\_libs\\hashtable_class_helper.pxi:7081, in pandas._libs.hashtable.PyObjectHashTable.get_item()

File pandas\\_libs\\hashtable_class_helper.pxi:7089, in pandas._libs.hashtable.PyObjectHashTable.get_item()

KeyError: False

The above exception was the direct cause of the following exception:

KeyError                                  Traceback (most recent call last)
Cell In[9], line 2
      1 print(all([word in df.question[0] for word in ['King', 'England']]))
----> 2 print(df[all([word in df.question for word in ['King', 'England']])])

File ~\anaconda3\Lib\site-packages\pandas\core\frame.py:4102, in DataFrame.__getitem__(self, key)
   4100 if self.columns.nlevels > 1:
   4101     return self._getitem_multilevel(key)
-> 4102 indexer = self.columns.get_loc(key)
   4103 if is_integer(indexer):
   4104     indexer = [indexer]

File ~\anaconda3\Lib\site-packages\pandas\core\indexes\base.py:3812, in Index.get_loc(self, key)
   3807     if isinstance(casted_key, slice) or (
   3808         isinstance(casted_key, abc.Iterable)
   3809         and any(isinstance(x, slice) for x in casted_key)
   3810     ):
   3811         raise InvalidIndexError(key)
-> 3812     raise KeyError(key) from err
   3813 except TypeError:
   3814     # If we have a listlike key, _check_indexing_error will raise
   3815     #  InvalidIndexError. Otherwise we fall through and re-raise
   3816     #  the TypeError.
   3817     self._check_indexing_error(key)

KeyError: False

如何根据此条件过滤数据框中的行？

出现错误是因为正在尝试使用布尔值对 DataFrame 进行索引。 Pandas 将其解释为对列标签的引用，而 False 不是有效的列标签。

可以使用以下方法解决此问题：

使用 apply 和 lambda 函数：

df[df['question'].apply(lambda text: all(word in text for word in ['King', 'England']))]

这会将 lambda 函数应用于“question”列中的每一行。该函数检查所有子字符串是否存在于文本中，并返回 True 或 False。然后将这些布尔值用于过滤 DataFrame。

使用列表推导式创建布尔索引：

mask = [all(word in text for word in ['King', 'England']) for text in df['question']]
df[mask]

这会创建一个与 DataFrame 行数相同的布尔值列表。如果该行中的文本包含所有子字符串，则列表中的每个值都为 True，否则为 False。然后使用此布尔列表过滤 DataFrame。

这两种方法都将返回一个新的 DataFrame，其中只包含“question”列中同时包含“King”和“England”的所有行的行。

标签：python,pandas,dataframe
From： 78802365

python中的while循环不退出
我试图完成第一年的python商业课程作业，但我的while循环无法退出，有人能帮忙吗？commisionTable=[{"admin_fee":100,"comm_rate":0.10},{"admin_fee":125,"comm_rate":0.12},{"admin_fee":150,"comm_rate":......
python---json文件写入
使用到的知识点：os模块执行linux指令、json.dump()、withopenasf代码实现importsysimportosimportjson #向json文件file中添加内容data，其中data的类型为字典defwrite_json(file,data): #如果文件存在，则删除 if(os.path.exists(fi......
python错题记录：布尔运算与逻辑值检测
一前言环境：python3.10win10二布尔运算与逻辑值检测1案例案例1如上，在布尔运算时，有些时候代码只会运算前面的一部分，剩下的部分根本不会运算。以前在练习算法代码时，就利用这个规则来减少代码的工作量案例2如上，之前好长一段时间，上面的布尔运算总是让我感到困惑布尔运......
python---字典遍历
1、三种常见的字典遍历实现defget_key_value(dics): '''遍历所有键值对''' forkey,valueindics.items(): print(f"{key}:{value}")defget_keys(dics): '''遍历所有的键''' forkeyindics......
python基本语法三天速成系列day1（看完这篇你就会）
注释注释是代码非常重要的一部分，它的主要作用有：解释代码目的：注释可以说明代码段或函数的目的和功能，帮助其他开发者快速理解代码的意图。复杂逻辑说明：对于复杂的算法或业务逻辑，通过注释可以解释这些逻辑是如何工作的，降低后续维护的难度。提高可读性：良好的注释可以使代码结......
Python学习笔记46：游戏篇之外星人入侵(七)
前言到目前为止，我们已经完成了游戏窗口的创建，飞船的加载，飞船的移动，发射子弹等功能。很高兴的说一声，基础的游戏功能已经完成一半了，再过几天我们就可以尝试驾驶飞船击毁外星人了。当然，计分，游戏次数，背景音乐，开始启动等按钮的功能需要我们慢慢添加，这些功能不影响游戏的使用，影......
Python学习笔记45：游戏篇之外星人入侵(六)
前言飞船模块的功能基本已经完成。今天继续完成子弹模块的功能。子弹模块子弹和飞船模块，在游戏逻辑中有一种生成与被生成的表面关系，因为子弹在游戏中是由飞船发射的。但是在我们实际抽象的过程中，飞船与子弹并不是is的关系，甚至可以说不是has的关系。因此我们需要将两个对......
三种语言实现二分（C++/Python/Java)
题目给定一个按照升序排列的长度为......
python+flask计算机毕业设计农场营销管理系统（程序+开题+论文）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着现代农业的快速发展，农场管理日益复杂，尤其是营销环节，传统的销售模式已难以满足市场快速变化的需求。农场主面临着如何高效管理农资采购......
python+flask计算机毕业设计社区独居老人健康管理系统（程序+开题+论文）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着社会老龄化的加速，独居老人群体日益庞大，成为社会关注的焦点。这一群体在享受独立生活的同时，也面临着健康监测不及时、生活照料缺失、医......

如何过滤 pandas 数据帧以查找包含给定列表中所有子字符串的字符串

相关文章

赞助商

阅读排行