首页 > 其他分享 >pandas 分组 抽样

pandas 分组 抽样

时间:2023-09-11 16:35:00浏览次数:40  
标签:index 抽样 sampled sample train 分组 csv data pandas

import pandas as pd

data = pd.read_csv("data.csv")
grouped_data = data.groupby("Group")

sampled_data = grouped_data.apply(pd.DataFrame.sample, n=200, random_state=42)

#拆分训练集和测试集
delete_index = [i[1] for i in sampled_data.index]

train = data[~data.index.isin(delete_index)]
train

train[['MD','label']].sample(frac=1).to_csv('train.csv',index=False)

test = sampled_data
test[['MD']].sample(frac=1).to_csv('test.csv',index=False)

 

标签:index,抽样,sampled,sample,train,分组,csv,data,pandas
From: https://www.cnblogs.com/cupleo/p/17693846.html

相关文章

  • 将pandas某列中的字符串按空格或换行符拆分成列表,然后剔除列表中的中文字符串
    要删除PandasDataFrame中某一列中的汉字字符,然后将该列的字符串按空格或换行符拆分成列表,可以按照以下步骤进行:假设你有一个名为df的DataFrame,要操作的列名为'某列':importpandasaspd#创建示例DataFramedata={'某列':['Hello你好','Thisisatest','Python编......
  • Python学习笔记:pandas.Series.str.split分列
    split()方法通过指定分隔符对字符串进行切分,返回分割后的字符串列表  pandas.str.split分列Series.str.split(pat=None,expand=False)  返回分割后的Series ......
  • 解释 pandas.series.str.contains里的参数na的作用并举例
    pandas.Series.str.contains方法用于检查Series中的字符串是否包含指定的模式(pattern)。参数na是用来指定在Series中存在缺失值时的处理方式。它的作用是决定对于缺失值应该返回什么结果。下面是参数na的不同设置及其作用:默认值为na=True:如果设置为默认值,当Series中存在......
  • pandas 筛选某列包含空格或汉字的行
    importpandasaspd#创建示例DataFramedata={'某列':['Hello','123','包含空格','包含汉字','OnlyLetters']}df=pd.DataFrame(data)#使用正则表达式筛选包含空格或汉字的行pattern=r'\s|[\u4e00-\u9fa5]'#......
  • 验证 空行或空列 读取表格是否有影响 结论 pandas读取所有数据
    验证空行或空列读取表格是否有影响结论pandas读取所有数据......
  • pandas-空值处理
    pandas-空值处理目录pandas-空值处理pandas中的None和NaN空值检测空值删除(过滤)空值填充参考资料pandas中的None和NaNtype(None)--类型是NoneType空的对象类型type(NaN)--类型是float浮点型Pandas中None和NaN都视作np.nannumpy中的三个常量np.NAN、np.nan......
  • pandas-数值映射和替换
    pandas-数值映射和替换目录pandas-数值映射和替换映射map()输入字典dict输入函数替换replace()参考资料映射列值是指将一个列中的某些特定值映射为另外一些值,常用于数据清洗和转换。映射map()Series.map(arg,na_action=None)arg:接收function、dict或Series,表示映射关系;......
  • list集合分组拆分
    #n组publicstatic<T>List<List<T>>averageAssign(List<T>source,intn){List<List<T>>result=Lists.newArrayList();intrenumber=source.size()%n;intnumber=source.size()/n;......
  • Pandas库在Anaconda中的部署方法
      本文介绍在Anaconda环境中,安装Python语言pandas模块的方法。  pandas模块是一个基于NumPy的开源数据分析库,提供了快速、灵活、易用的数据结构和数据分析工具。它的主要数据结构是Series和DataFrame,可以处理各种数据格式,如CSV、Excel、SQL数据库等,并且支持数据清洗、缺失值处......
  • pandas-遍历和迭代
    pandas-遍历和迭代目录pandas-遍历和迭代iterrows()itertuples()借助zip()foriindf备注参考资料遍历数据是最常见的一种方式,pandas同样也可以遍历。iterrows()或itertuples():这两个方法用于遍历DataFrame的行。iterrows()返回一个迭代器,产生索引和行的元组,而itertup......