• 2024-07-02Python大数据复习题
    Python大数据复习题第一章创建一个Python脚本,命名为test1.py,实现以下功能。定义一个元组t1=(1,2,‘py’,‘matlab’)和一个空列表list1。以while循环的方式,用append()函数依次向list1中添加t1中的元素。定义一个空字典,命名为dict1。定义一个嵌套列表Li=[‘k’,[3,4,5],(1,2,6),18
  • 2024-06-04Python数据框操作 -- 提取数据
    创建一个数据框importpandasaspddf=pd.DataFrame({'a':[2,2,3,4,5],'b':[6,7,8,8,9]}) #创建一个数据框提取某列df.a #df的a这一列df['a'] #df的a这一列df.iloc[:,0] #df的所有行,第0列(依然是a列)提取某几列df[['a','b']] #df的a,b这两列df.ilo
  • 2024-03-25python实现时序平滑算法SG滤波器
  • 2024-03-24DataFrame.loc和DataFrame.iloc
    DataFrame.loc(行索引名称或者条件,列索引名称或者条件)DataFrame.iloc(行索引位置,列索引位置)注意事项:1.如果选取的是范围的话,用冒号且不加中括号,比如说iloc[0:3,0:3],表示选取1-3行和1-3列。2.如果选取的是第几行,第几列时,用逗号且加中括号,比如说loc[[1,3],['name','age']],
  • 2024-03-24获取ETF历史行情数据,并用图形展示
    通过akshare获取ETF历史行情数据采用plotly展示图形代码:importakshareasakimportplotly.expressaspximportplotly.graph_objectsasgojsj_etf=ak.fund_etf_hist_sina(symbol="sz159998")fig=px.line(jsj_etf,x="date",y="close",title=&
  • 2024-03-19py
    importpandasaspdimportnumpyasnpfromsklearn.preprocessingimportOneHotEncoderfromsklearn.manifoldimportTSNEimportplotly.expressaspx#1.加载数据并转化为DataFramedata=pd.read_csv('ma2.csv',header=None)#假设第一列至第三列分别为年龄聚类、城市
  • 2024-03-16动手学习Deep learning-数据预处理
    数据预处理:importosos.makedirs(os.path.join('..','data'),exist_ok=True)#自动读取该代码文件的文件位置,并返回上级目录创建data文件data_file=os.path.join('..','data','house_tiny.csv')#创建CSV文件withopen(data_file,'w
  • 2024-03-15如何提取企业年报中表格的数据?-使用camelot库
     参考资料链接:Python解析pdf表格|Camelot库(完胜)VSPdfplumber库一、表格在单独一页的情况importcamelotpdf=r"C:\Users\ziyao\Desktop\pythonforwork\办公\work1\2018年10月全国城市空气质量报告.pdf"table=camelot.read_pdf(pdf,pages='11')print(table)#查看该
  • 2023-11-21​​*df.itertuples(index=False)​​​ 和 ​​*[df.iloc[i] for i in range(df.shape[0])]​
    *df.itertuples(index=False)和*[df.iloc[i]foriinrange(df.shape[0])]的效果是类似的,但并不完全一致。*[df.iloc[i]foriinrange(df.shape[0])]:这段代码会返回一个列表,列表中的每个元素都是DataFrame的一行。每一行是一个Series对象,索引是列名。然后,*运算符会将这
  • 2023-11-17Python:Pandas中df.iloc和df.loc区别
    1df.iloc官方文档中定义为“基于整数位置的索引,用于按位置选择。”df.iloc就是只根据行列号对数据进行切片或选择。当作数组取数就行。df.iloc[raw,col]:第一个参数raw表示行选,第二个参数表示列选,都必须是整数。importpandasaspdmydict=[{'a':1,'b':2,'d':4},
  • 2023-10-10# yyds干货盘点 #盘点一个Python自动化办公Excel数据填充实战案例(下篇)
    大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公的问题,一起来看看吧。上一篇【论草莓如何成为冻干莓】大佬给出的方法太深奥了,粉丝没有看懂,这一篇文章,一起来围观大佬在粉丝的代码基础上进行修改出正确的代码。二、实现过程这里是【论草莓
  • 2023-10-08盘点一个Python自动化办公Excel数据填充实战案例(上篇)
    大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公的问题,一起来看看吧。有个表格,里面每行信息,如下图所示:现在需要将数据贴到另一个文件指定单元格中,另一个文件是这样子的。下图是他的原始数据和他想得到的目标数据,一页有三个,如下所
  • 2023-10-05透彻理解 pandas 切片中 df.loc ,df.iloc
    在处理pandas数据框时,选择数据是非常常见的操作。为了满足这种需求,pandas提供了多种选择数据的方法,其中最常用的是df.loc和df.iloc。尽管它们在许多情况下都可以互换使用,但它们之间确实存在一些关键区别,初学者必须明确这些区别以避免潜在的错误。1.基本定义df.loc:基于标
  • 2023-10-01基于pandas的数据清洗 -- 重复值的清洗
    博客地址:https://www.cnblogs.com/zylyehuo/开发环境anaconda集成环境:集成好了数据分析和机器学习中所需要的全部环境安装目录不可以有中文和特殊符号jupyteranaconda提供的一个基于浏览器的可视化开发工具df=DataFrame(data=np.random.randint(0,100,size=(8,
  • 2023-09-18pandas使用 - 取数据
    涉及的几个类pandas.core.frame.DataFrame:表示二维数据,比如:表格数据pandas.core.series.Series:表示一维数据,比如:一行数据,或一列数据 取行用法DataFrame[row_slice]DataFrame.loc[rowName|rowName_slice|rowName_list]DataFrame.iloc[row|row_slice|row_list]取一
  • 2023-08-08DataFrame使用iloc选择数据
    importpandasaspd#创建示例DataFramedata={'A':[1,2,3,4,5],'B':['a','b','c','d','e'],'C':[10,20,30,40,50]}df=pd.DataFrame(data)#使用iloc
  • 2023-07-11四十、区块量化 LON策略
    #!/usr/bin/envpython#-*-coding:utf-8-*-importtalibimportcross_orderasorderimporttimeimportpandasaspddefLON(df,n=10):"""钱龙长线指标是一种描述当前趋势的指标,相比均线只使用收盘价而言,钱龙长线指标在描述趋势时,还考虑到了最高价、最低价、成交量对趋势
  • 2023-06-21十九、区块量化 形态策略
    1、形态指常用的K线形态如:早晨之星、黄昏十字星、乌云盖顶、三只乌鸦、白三兵、刺透形态等常用的几个主要形态下面看代码:新增cross_modal_order.py#!/usr/bin/envpython#-*-coding:utf-8-*-importtalibimportcross_orderasorderimporttimedefmain():print("任务
  • 2023-06-18十五、区块量化 双均线策略
    新增cross_dualma_order.py#-*-coding:utf-8-*-importcross_orderasorderimporttimeSHORT_WIN=50#短周期窗口LONG_WIN=200#长周期窗口defmain():print("任务开始时间:",time.strftime('%Y-%m-%d%H:%M:%S',time.localtime(time.time())))forsymbol
  • 2023-06-020002.有监督学习之k-近邻算法
    一、概述k-近邻算法(k-NearestNeighbouralgorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别
  • 2023-05-19python -- pandas常见的一些行、列操作方法(感兴趣的,可以跟着一起练练手)
     这篇文章分享一下pandas常见的一些行、列操作方法,比较基础,感兴趣的童鞋可以看看。 首先,我们用“random.seed(inti)” 生成一组测试数据。对于random.seed()有兴趣进一步了解的,可以前往阅读 python--numpy.random.seed() 如果“pipinstallpandas”遇到问题,可参考
  • 2023-05-03pandas drop、loc和iloc函数对数据框进行操作
    pandas.DataFrame.drop—从行或列中删除指定的标签参考:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html语法格式DataFrame.drop(labels=None, *, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise
  • 2023-04-17pandas数据处理基础-数据读取/数据选择
    数据读取df=pd.read_csv("相对路径或者网址")呈现的结果是一个二维数组,dataframe结构;df.head()----显示的是前5行数据df.tail(7)----显示的是后7行数据df.describe()----对数据进行描述df.values----将dataframe转换为numpy数组结构df.index--查看索引df.columns--查看行
  • 2023-04-15怎么用Jupyter Notebook对数据集进行清洗和标注
    数据清洗是数据预处理的一部分,是数据分析和建模前必须进行的重要步骤。数据清洗可以帮助我们解决数据中包含的噪声、异常值、缺失值、重复数据等问题,从而提高数据的质量和可靠性。如果不进行数据清洗,可能会影响后续的数据分析和建模结果,甚至产生误导性的结论。因此,在进行任何数据
  • 2023-03-09Pandas的索引,选择和定位
    该博客是Pandas课程习题,前往此处可学习课程该习题引用的数据集为WineReviewsdataset,前往此处下载数据集初始化importpandasaspdreviews=pd.read_csv("./winema