pandas 分组抽样

时间：2023-09-11 16:35:00浏览次数：42

标签：index 抽样 sampled sample train 分组 csv data pandas

import pandas as pd

data = pd.read_csv("data.csv")
grouped_data = data.groupby("Group")

sampled_data = grouped_data.apply(pd.DataFrame.sample, n=200, random_state=42)

#拆分训练集和测试集
delete_index = [i[1] for i in sampled_data.index]

train = data[~data.index.isin(delete_index)]
train

train[['MD','label']].sample(frac=1).to_csv('train.csv',index=False)

test = sampled_data
test[['MD']].sample(frac=1).to_csv('test.csv',index=False)

标签：index,抽样,sampled,sample,train,分组,csv,data,pandas
From： https://www.cnblogs.com/cupleo/p/17693846.html

将pandas某列中的字符串按空格或换行符拆分成列表,然后剔除列表中的中文字符串
要删除PandasDataFrame中某一列中的汉字字符，然后将该列的字符串按空格或换行符拆分成列表，可以按照以下步骤进行：假设你有一个名为df的DataFrame，要操作的列名为'某列'：importpandasaspd#创建示例DataFramedata={'某列':['Hello你好','Thisisatest','Python编......
Python学习笔记：pandas.Series.str.split分列
split()方法通过指定分隔符对字符串进行切分，返回分割后的字符串列表 pandas.str.split分列Series.str.split(pat=None,expand=False) 返回分割后的Series ......
解释 pandas.series.str.contains里的参数na的作用并举例
pandas.Series.str.contains方法用于检查Series中的字符串是否包含指定的模式（pattern）。参数na是用来指定在Series中存在缺失值时的处理方式。它的作用是决定对于缺失值应该返回什么结果。下面是参数na的不同设置及其作用：默认值为na=True：如果设置为默认值，当Series中存在......
pandas 筛选某列包含空格或汉字的行
importpandasaspd#创建示例DataFramedata={'某列':['Hello','123','包含空格','包含汉字','OnlyLetters']}df=pd.DataFrame(data)#使用正则表达式筛选包含空格或汉字的行pattern=r'\s|[\u4e00-\u9fa5]'#......
验证空行或空列读取表格是否有影响结论 pandas读取所有数据
验证空行或空列读取表格是否有影响结论pandas读取所有数据......
pandas-空值处理
pandas-空值处理目录pandas-空值处理pandas中的None和NaN空值检测空值删除(过滤)空值填充参考资料pandas中的None和NaNtype(None)--类型是NoneType空的对象类型type(NaN)--类型是float浮点型Pandas中None和NaN都视作np.nannumpy中的三个常量np.NAN、np.nan......
pandas-数值映射和替换
pandas-数值映射和替换目录pandas-数值映射和替换映射map()输入字典dict输入函数替换replace()参考资料映射列值是指将一个列中的某些特定值映射为另外一些值，常用于数据清洗和转换。映射map()Series.map(arg,na_action=None)arg：接收function、dict或Series，表示映射关系；......
list集合分组拆分
#n组publicstatic<T>List<List<T>>averageAssign(List<T>source,intn){List<List<T>>result=Lists.newArrayList();intrenumber=source.size()%n;intnumber=source.size()/n;......
Pandas库在Anaconda中的部署方法
本文介绍在Anaconda环境中，安装Python语言pandas模块的方法。 pandas模块是一个基于NumPy的开源数据分析库，提供了快速、灵活、易用的数据结构和数据分析工具。它的主要数据结构是Series和DataFrame，可以处理各种数据格式，如CSV、Excel、SQL数据库等，并且支持数据清洗、缺失值处......
pandas-遍历和迭代
pandas-遍历和迭代目录pandas-遍历和迭代iterrows()itertuples()借助zip()foriindf备注参考资料遍历数据是最常见的一种方式,pandas同样也可以遍历。iterrows()或itertuples()：这两个方法用于遍历DataFrame的行。iterrows()返回一个迭代器，产生索引和行的元组，而itertup......

pandas 分组抽样

相关文章

赞助商

阅读排行

pandas 分组 抽样

相关文章

赞助商

阅读排行

pandas 分组抽样