首页 > 其他分享 >Pandas数据框去重复(AB、BA类型)

Pandas数据框去重复(AB、BA类型)

时间:2023-05-27 09:22:22浏览次数:35  
标签:Gm3376 Pdcl2 BA temp 框去 AB Gm4340 drop Gnai3

<众~号@生信探索>

从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)

df.drop_duplicates()
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Pdcl2  Gnai3
# Gm4340  Gm3376
# Gm3376  Gm4340

而且drop_duplicates不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。

字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如

"Gnai3">"Pdcl2"
# False

axis=1是对每一行循环,总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3  Pdcl2 Pdcl2-Gnai3
# Pdcl2  Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376

这个时候再对temp的行去重复,就可以了

df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376

最后再删除temp列

df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Gm4340  Gm3376

标签:Gm3376,Pdcl2,BA,temp,框去,AB,Gm4340,drop,Gnai3
From: https://www.cnblogs.com/BioQuest/p/17436267.html

相关文章

  • m基于负价环N算法的无线传感器网络性能matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要负环的定义:负环是指权值和为负数的环。负环会使图的最短路径计算陷入死循环,因此,存在负环的图不存在最短路。 负环的计算方法:负环有两种计算方法,都是基于Bellman-Ford算法或者SPFA算法。第......
  • 基于QPSK调制和CoSaMP算法的信道估计均衡算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:    2.算法涉及理论知识概要 均衡器的分类    •均衡处理方法       时域均衡器:单载波数字通信中多采用时域均衡器,从时域的冲激响应考虑       正交频分复用OFDM调制:采用频域均衡    •是否......
  • Qemu仿真----(7)运行Ubuntu Base
    平台:ubuntu-22.04-desktop-amd64.对象:ubuntubase、qemu.文件: ubuntu-base-22.04.2-base-arm64.tar.gz、linux-6.1.26.tar.xzUbuntuBase不是一个超小的内存运行嵌入式发行版;它是Ubuntu的最小实现,本例通过qemu运行ubuntu-base.1.安装依赖$sudoaptinstallbinfmt-suppor......
  • m基于FPGA的LDPC最小和译码算法verilog实现,包括testbench和matlab辅助验证程序
    1.算法仿真效果matlab2022a/vivado2019.2仿真结果如下:matlab仿真:0.5码率,H是4608×9216的矩阵。FPGA仿真:对比如下:2.算法涉及理论知识概要LDPC译码分为硬判决译码和软判决译码。硬判决译码又称代数译码,主要代表是比特翻转(BF)译码算法,它的实现比较简单,但是译码性能很差......
  • m基于负价环N算法的无线传感器网络性能matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要负环的定义:负环是指权值和为负数的环。负环会使图的最短路径计算陷入死循环,因此,存在负环的图不存在最短路。负环的计算方法:负环有两种计算方法,都是基于Bellman-Ford算法或者SPFA算法。第一种算法是:统计每个点的......
  • m基于FPGA的LDPC最小和译码算法verilog实现,包括testbench和matlab辅助验证程序
    1.算法仿真效果matlab2022a/vivado2019.2仿真结果如下: matlab仿真: 0.5码率,H是4608×9216的矩阵。   FPGA仿真:    对比如下:   2.算法涉及理论知识概要         LDPC译码分为硬判决译码和软判决译码。         硬判决译码又称......
  • 【无人机任务分配】基于合同网协议(CNP算法)实现多无人机具有时间窗口和优先级约束任务
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 304. Range Sum Query 2D - Immutable刷题笔记
    暴力做超时了,参考题解但是它只考虑了一种情况,事实上可以继续扩充的classNumMatrix:def__init__(self,matrix:List[List[int]]):m,n=len(matrix),len(matrix[0])self.sum=[[0]*(n+1)for_inrange(m+1)]#sum[i][j]issumofallel......
  • ubuntu 安装gitlab
    1.下载https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/apt/packages.gitlab.com/gitlab/gitlab-ce/ubuntu/pool/focal/main/g/gitlab-ce/选一个 2.安装 dpkg-igitlab-ce_13.10.0-ce.0_amd64.deb3.改配置vi/etc/gitlab/gitlab.rbexternal_url'http://192.168.31.......
  • Python 使用Seaborn画图,代码正常不出图
    不得不说,这个库画出来的图也太好看了。目前还没有很懂这个库,但是需要注意的是我在用完plt之后引入这个,图片一直出不来真的困扰我很久啊。终于找到了救命的办法参考链接:https://blog.csdn.net/qq_56039091/article/details/124024286......