df

2025-01-09day05_Spark SQL
文章目录day05_SparkSQL课程笔记一、今日课程内容二、SparkSQL基本介绍（了解）1、什么是SparkSQL**为什么SparkSQL是“SQL与大数据之间的桥梁”？****实际意义**为什么要学习SparkSQL呢?**为什么SparkSQL像“瑞士军刀”？**2、SparkSQL与HIVE异同3、SparkSQL的数
2025-01-09day06_Spark SQL
文章目录day06_SparkSQL课程笔记一、今日课程内容二、DataFrame详解（掌握）5.清洗相关的API6.SparkSQL的Shuffle分区设置7.数据写出操作写出到文件写出到数据库三、SparkSQL的综合案例（掌握）1、常见DSL代码整理2、电影分析案例需求说明:需求分析:四、SparkSQL函数定义
2025-01-09python 代码实现了对考古遗址数据的一系列分析和可视化功能
importpandasaspdimportnumpyasnpimportmatplotlibimportmatplotlib.pyplotaspltimportseabornassnsimportfoliumfromfolium.pluginsimportHeatMapfromsklearn.clusterimportKMeansfromsklearn.preprocessingimportStandardScalerfromgeo
2025-01-09python 代码实现了一个结合数据包络分析（DEA）和粒子群优化（PSO）算法的模型，主要用于寻找一组最优权重，以评估和优化某种与企业生产效率相关的指标
importnumpyasnpimportpandasaspdimportpickleimportrefromscipy.optimizeimportminimizeimportrandomimportmatplotlib.pyplotaspltimportscipy.statsasstatsfromconcurrent.futuresimportThreadPoolExecutor#加载数据，添加文件存在性验证
2025-01-06爬虫基础之爬取某基金网站+数据分析
声明:本案例仅供学习参考使用，任何不法的活动均与本作者无关网站:天天基金网(1234567.com.cn)--首批独立基金销售机构--东方财富网旗下基金平台!本案例所需要的模块:1.requests 2.re(内置) 3.pandas 4.pyecharts其他均需
2025-01-06index具有特殊含义的pandas dataframe 如何保存、读取
在Pandas中，DataFrame的索引（index）可以具有特殊含义，比如时间戳、分类标签或其他对数据有组织和查询意义的标识。为了确保这些特殊的索引在保存和读取过程中不丢失其信息或格式，你可以使用特定的方法来处理。保存DataFrame当你保存一个带有特殊索引的DataFrame时，通常会使用.t
2025-01-06用Python进行大数据处理：如何使用pandas和dask处理海量数据
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界随着数据量的爆炸式增长，大数据处理成为现代数据科学和工程领域的核心挑战。Python作为数据分析的重要工具，其生态系统中的pandas和dask库为处理
2025-01-06数学建模入门——描述性统计分析
摘要：本篇博客主要讲解了数学建模入门的描述性统计分析，包括基本统计量的计算、数据的分布形态、数据可视化和相关性分析。往期回顾：数学建模入门——建模流程-CSDN博客数学建模入门——数据预处理（全）-CSDN博客一、基本统计量基本统计量是描述性统计分析的重要组成部分
2025-01-04工资收入预测项目01
1.项目选题使用美国人口普查收入数据集，根据人口普查数据预测个人收入是否每年超过50,000美元。数据集：adult任务分析意义：通过分析人口工资情况，可以揭示不同人口特征与收入水平之间的关系，这对于理解社会经济结构、制定公共政策以及优化资源分配具有重要意义。例如，可以帮助
2025-01-03基于N-HiTS神经层次插值模型的时间序列预测——cross validation交叉验证与ray tune超参数优化
论文链接：https://arxiv.org/pdf/2201.12886v3N-
2025-01-02Oracle数据库表空间
SELECTtablespace_name,SUM(BYTES)/1024/1024"FreeSpace(MB)"FROMdba_free_spaceGROUPBYtablespace_name; 追加表空间的语句，里面的路径是服务器的实际路径：ALTERTABLESPACEUNDOTBS1ADDDATAFILE'Z:/app/oradata/MELALEUCADB/UNDOTBS03.DBF'SIZE1024MAUTOE
2025-01-0210.12
实验一：数据准备与模型评估一、实验目的熟悉Python的基本操作，掌握对数据集的读写实现、对模型性能的评估实现的能力；加深对训练集、测试集、N折交叉验证、模型评估标准的理解。二、实验内容（1）利用pandas库从本地读取iris数据集；（2）从scikit-learn库中直接加载iris
2025-01-0114_业务分析介绍&15_Python报表自动化&18_AB测试实战&19_用户偏好分析和TGI&20_同期群分析
文章目录14_业务分析介绍业务分析介绍学习目标1数据指标简介1.1什么是数据指标1.2常用的业务指标1.3如何选择指标2电商业务指标3电商分析方法论及应用黄金公式GROWAIPL抖音5A与京东4A3通过数据分析解决的业务问题（了解）行业趋势分析竞
2024-12-31【数据清洗秘籍】如何避免Pandas中的科学计数法陷阱
在数据分析的世界里，数据清洗是一项不可或缺的工作。我们经常需要将数据从一种格式转换为另一种格式，以适应分析的需求。然而，在处理数值数据时，一个常见的问题就是数值被自动转换为科学计数法，尤其是当数值非常大时。这不仅影响了数据的可读性，还可能对后续的分析造成影响:譬如无法关联
2024-12-31Pandas-Excel
#默认读取第一个表单df=pd.read_excel('b.xlsx')print(df)#读取指定表单的内容df=pd.read_excel('b.xlsx',sheet_name='Sheet1')print(df)#读取多个表单，返回一个字典dfs=pd.read_excel('b.xlsx',sheet_name=['Sheet1','Sheet2'])pri
2024-12-30AI应用实战课学习总结（3）预测带货销售额
大家好，我是Edison。最近入坑黄佳老师的《AI应用实战课》，记录下我的学习之旅，也算是总结回顾。今天是我们的第3站，了解下AI项目实践的5大环节，并通过一个预测直播带货销售额的案例来感受下。AI项目的5大环节对于一个AI项目的实战大概有以下5大环节：问题定义：需要明确定义需要解决
2024-12-30Pandas-DataFrame
一、Pandas-DataFrame特点二、特征练习#从列表嵌套字典创建DataFramedata=[{'a':1,'b':2},{'a':5,'b':10,'c':20}]df=pd.DataFrame(data)print(df)print('-----------')#从字典创建DataFramedata={'Na
2024-12-30pandas-Series
一、Series特点二、特点练习importpandasaspdimportnumpyasnp#pandas---Series#默认索引从0开始且数组类型数据data=np.array(['张三','李四','王五','赵六'])s=pd.Series(data)print(s)#自定义索引s=pd.Series(data,index=['100','
2024-12-29如何使用Python从SACS结构数据文件中提取构件组数据信息并导出
SACS是一种广泛用于结构分析和设计的软件系统，其数据文件格式常用于存储结构模型和分析结果。本文将介绍如何从一个复杂的SACS文件中提取关键信息，并将其整理成易于理解的表格格式。我们将关注SACS文件中的一个部分，名为“GRUP”，它包含了结构组的数据。我们将学习如何
2024-12-29Python里的pandas库append 方法的替代实现方法
使用 concat 函数concat 函数可以将多个 DataFrame 连接在一起，通过这种方式可以实现类似 append 的功能。importpandasaspd#创建示例DataFramedf=pd.DataFrame({'col1':[1,2],'col2':[3,4]})#创建要添加的新行，以DataFrame形式new_row=pd.DataF
2024-12-29一文读懂 Linux 磁盘使用情况查看
一文读懂Linux磁盘使用情况查看在Linux系统管理与运维工作中，时刻掌握磁盘的使用状况对保障系统稳定运行、提前规划存储扩容至关重要。Linux提供了丰富且功能各异的工具，用于查看磁盘使用详情，本文将深入介绍这些实用工具，并结合实际操作示例，助力大家轻松驾驭磁盘管理工作
2024-12-2911.29混淆矩阵展示
importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportconfusion_matrix,ConfusionMatrixDisplayimportmatplotlib.pyplotaspltfromsklearn.pre
2024-12-2911.28
importpandasaspdimportseabornassnsimportmatplotlib.pyplotasplt#提供文件的绝对路径file_path=r'D:\BP_R_Data.xlsx'#请替换为实际路径#尝试读取Excel文件try:df=pd.read_excel(file_path,sheet_name='Sheet1',engine='openpyxl')#检查
2024-12-29parquet & DuckDB
Ingestandsplitdatainaflowhttps://docs.outerbounds.com/recsys-tutorial-L2/Givenourdatasetisinaparquetfile,inthislessonyouwilllearnhowtoleverageanopen-source,ahyper-performantdatabaseforanalyticsworkloadscalledDuckDB.You
2024-12-285-pandas常用操作2
前言一、df.max()计算每列最大值二、df.apply()1.可以传函数代码如下（示例）：#lambda匿名函数自定义f=lambdax:x.max()-x.min()#x参数冒号后是返回值df.apply(f)#默认axis=0,所以这里是按列求最大值-最小值2.可以直接写内置函数代码如下（示例）：df