- 2025-01-09day05_Spark SQL
文章目录day05_SparkSQL课程笔记一、今日课程内容二、SparkSQL基本介绍(了解)1、什么是SparkSQL**为什么SparkSQL是“SQL与大数据之间的桥梁”?****实际意义**为什么要学习SparkSQL呢?**为什么SparkSQL像“瑞士军刀”?**2、SparkSQL与HIVE异同3、SparkSQL的数
- 2025-01-09day06_Spark SQL
文章目录day06_SparkSQL课程笔记一、今日课程内容二、DataFrame详解(掌握)5.清洗相关的API6.SparkSQL的Shuffle分区设置7.数据写出操作写出到文件写出到数据库三、SparkSQL的综合案例(掌握)1、常见DSL代码整理2、电影分析案例需求说明:需求分析:四、SparkSQL函数定义
- 2025-01-09python 代码实现了对考古遗址数据的一系列分析和可视化功能
importpandasaspdimportnumpyasnpimportmatplotlibimportmatplotlib.pyplotaspltimportseabornassnsimportfoliumfromfolium.pluginsimportHeatMapfromsklearn.clusterimportKMeansfromsklearn.preprocessingimportStandardScalerfromgeo
- 2025-01-09python 代码实现了一个结合数据包络分析(DEA)和粒子群优化(PSO)算法的模型,主要用于寻找一组最优权重,以评估和优化某种与企业生产效率相关的指标
importnumpyasnpimportpandasaspdimportpickleimportrefromscipy.optimizeimportminimizeimportrandomimportmatplotlib.pyplotaspltimportscipy.statsasstatsfromconcurrent.futuresimportThreadPoolExecutor#加载数据,添加文件存在性验证
- 2025-01-06爬虫基础之爬取某基金网站+数据分析
声明:本案例仅供学习参考使用,任何不法的活动均与本作者无关网站:天天基金网(1234567.com.cn)--首批独立基金销售机构--东方财富网旗下基金平台!本案例所需要的模块:1.requests 2.re(内置) 3.pandas 4.pyecharts其他均需
- 2025-01-06index具有特殊含义的pandas dataframe 如何保存、读取
在Pandas中,DataFrame的索引(index)可以具有特殊含义,比如时间戳、分类标签或其他对数据有组织和查询意义的标识。为了确保这些特殊的索引在保存和读取过程中不丢失其信息或格式,你可以使用特定的方法来处理。保存DataFrame当你保存一个带有特殊索引的DataFrame时,通常会使用.t
- 2025-01-06用Python进行大数据处理:如何使用pandas和dask处理海量数据
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门!解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界随着数据量的爆炸式增长,大数据处理成为现代数据科学和工程领域的核心挑战。Python作为数据分析的重要工具,其生态系统中的pandas和dask库为处理
- 2025-01-06数学建模入门——描述性统计分析
摘要:本篇博客主要讲解了数学建模入门的描述性统计分析,包括基本统计量的计算、数据的分布形态、数据可视化和相关性分析。往期回顾:数学建模入门——建模流程-CSDN博客数学建模入门——数据预处理(全)-CSDN博客一、基本统计量基本统计量是描述性统计分析的重要组成部分
- 2025-01-04工资收入预测项目01
1.项目选题使用美国人口普查收入数据集,根据人口普查数据预测个人收入是否每年超过50,000美元。数据集:adult任务分析意义:通过分析人口工资情况,可以揭示不同人口特征与收入水平之间的关系,这对于理解社会经济结构、制定公共政策以及优化资源分配具有重要意义。例如,可以帮助
- 2025-01-03基于N-HiTS神经层次插值模型的时间序列预测——cross validation交叉验证与ray tune超参数优化
论文链接:https://arxiv.org/pdf/2201.12886v3N-
- 2025-01-02Oracle数据库表空间
SELECTtablespace_name,SUM(BYTES)/1024/1024"FreeSpace(MB)"FROMdba_free_spaceGROUPBYtablespace_name; 追加表空间的语句,里面的路径是服务器的实际路径:ALTERTABLESPACEUNDOTBS1ADDDATAFILE'Z:/app/oradata/MELALEUCADB/UNDOTBS03.DBF'SIZE1024MAUTOE
- 2025-01-0210.12
实验一:数据准备与模型评估一、实验目的熟悉Python的基本操作,掌握对数据集的读写实现、对模型性能的评估实现的能力;加深对训练集、测试集、N折交叉验证、模型评估标准的理解。 二、实验内容(1)利用pandas库从本地读取iris数据集;(2)从scikit-learn库中直接加载iris
- 2025-01-0114_业务分析介绍&15_Python报表自动化&18_AB测试实战&19_用户偏好分析和TGI&20_同期群分析
文章目录14_业务分析介绍业务分析介绍学习目标1数据指标简介1.1什么是数据指标1.2常用的业务指标1.3如何选择指标2电商业务指标3电商分析方法论及应用黄金公式GROWAIPL抖音5A与京东4A3通过数据分析解决的业务问题(了解)行业趋势分析竞
- 2024-12-31【数据清洗秘籍】如何避免Pandas中的科学计数法陷阱
在数据分析的世界里,数据清洗是一项不可或缺的工作。我们经常需要将数据从一种格式转换为另一种格式,以适应分析的需求。然而,在处理数值数据时,一个常见的问题就是数值被自动转换为科学计数法,尤其是当数值非常大时。这不仅影响了数据的可读性,还可能对后续的分析造成影响:譬如无法关联
- 2024-12-31Pandas-Excel
#默认读取第一个表单df=pd.read_excel('b.xlsx')print(df)#读取指定表单的内容df=pd.read_excel('b.xlsx',sheet_name='Sheet1')print(df)#读取多个表单,返回一个字典dfs=pd.read_excel('b.xlsx',sheet_name=['Sheet1','Sheet2'])pri
- 2024-12-30AI应用实战课学习总结(3)预测带货销售额
大家好,我是Edison。最近入坑黄佳老师的《AI应用实战课》,记录下我的学习之旅,也算是总结回顾。今天是我们的第3站,了解下AI项目实践的5大环节,并通过一个预测直播带货销售额的案例来感受下。AI项目的5大环节对于一个AI项目的实战大概有以下5大环节:问题定义:需要明确定义需要解决
- 2024-12-30Pandas-DataFrame
一、Pandas-DataFrame特点 二、特征练习#从列表嵌套字典创建DataFramedata=[{'a':1,'b':2},{'a':5,'b':10,'c':20}]df=pd.DataFrame(data)print(df)print('-----------')#从字典创建DataFramedata={'Na
- 2024-12-30pandas-Series
一、Series特点 二、特点练习importpandasaspdimportnumpyasnp#pandas---Series#默认索引从0开始且数组类型数据data=np.array(['张三','李四','王五','赵六'])s=pd.Series(data)print(s)#自定义索引s=pd.Series(data,index=['100','
- 2024-12-29如何使用Python从SACS结构数据文件中提取构件组数据信息并导出
SACS是一种广泛用于结构分析和设计的软件系统,其数据文件格式常用于存储结构模型和分析结果。本文将介绍如何从一个复杂的SACS文件中提取关键信息,并将其整理成易于理解的表格格式。我们将关注SACS文件中的一个部分,名为“GRUP”,它包含了结构组的数据。我们将学习如何
- 2024-12-29Python里的pandas库append 方法的替代实现方法
使用 concat 函数concat 函数可以将多个 DataFrame 连接在一起,通过这种方式可以实现类似 append 的功能。importpandasaspd#创建示例DataFramedf=pd.DataFrame({'col1':[1,2],'col2':[3,4]})#创建要添加的新行,以DataFrame形式new_row=pd.DataF
- 2024-12-29一文读懂 Linux 磁盘使用情况查看
一文读懂Linux磁盘使用情况查看在Linux系统管理与运维工作中,时刻掌握磁盘的使用状况对保障系统稳定运行、提前规划存储扩容至关重要。Linux提供了丰富且功能各异的工具,用于查看磁盘使用详情,本文将深入介绍这些实用工具,并结合实际操作示例,助力大家轻松驾驭磁盘管理工作
- 2024-12-2911.29混淆矩阵展示
importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportconfusion_matrix,ConfusionMatrixDisplayimportmatplotlib.pyplotaspltfromsklearn.pre
- 2024-12-2911.28
importpandasaspdimportseabornassnsimportmatplotlib.pyplotasplt#提供文件的绝对路径file_path=r'D:\BP_R_Data.xlsx'#请替换为实际路径#尝试读取Excel文件try:df=pd.read_excel(file_path,sheet_name='Sheet1',engine='openpyxl')#检查
- 2024-12-29parquet & DuckDB
Ingestandsplitdatainaflowhttps://docs.outerbounds.com/recsys-tutorial-L2/Givenourdatasetisinaparquetfile,inthislessonyouwilllearnhowtoleverageanopen-source,ahyper-performantdatabaseforanalyticsworkloadscalledDuckDB.You
- 2024-12-285-pandas常用操作2
前言一、df.max()计算每列最大值二、df.apply()1.可以传函数代码如下(示例):#lambda匿名函数自定义f=lambdax:x.max()-x.min()#x参数冒号后是返回值df.apply(f)#默认axis=0,所以这里是按列求最大值-最小值2.可以直接写内置函数代码如下(示例):df