本文同步发布在这里!
前言
本随笔为数模国赛前的最后一堂课的笔记。有一些零零散散,但是信息量很大。如果有机会(现在是没必要啦),再整理成方便阅读的文字吧。
数据题
数据类题目获奖容易,拿国一难。同时选择该题的队伍数量较多,以2023年为例,三道题选择比例大约是A:B:C=1:3:9
。
做数据题,一开始需要注意做以下几件事:
-
统计描述(表格,最值众数mean std概率分布)和统计推断(图,点估计、区间估计),做完之后都需要加上一些规律性的结论分析。
-
统计推断(假设检验,正态假设的检验、Z、T、卡方检验)。
-
拟合与插值。
-
插值常用于异常值填充。注意方法的选择。
数据探索性分析
基本特征,预处理,统计分析,可视化,归整
特征降维(特征提取和特征选择,相关性分析,重要性排序)
模型选择(基本都要做多模型+模型对比)
训练集与测试集(如何划分?建议前:后=3:7
而不是随机3:7
)
结果呈现(正确性很重要,越高越好)
简单的回归分析
- 为什么要用该模型
- 该模型的基本概念
- 参数估计
- 模型性能评价,如R2,F值,p值
线性回归、逐步回归、多项式回归、非线性回归。
方差分析、相关性分析
常用于分析因果,分析X对Y的因果,定性分析。(定量的话用回归)
ANOVA,MANOVA;线性相关性,非线性相关性,Perason,Spearman,Kendall,GRA,互信息(可用来算非线性相关性)。
需要写清楚:
- 为什么要用XXX模型
- 用ANOVA还是MANOVA,是否考虑交互作用
- 变量的水平划分
多元统计分析法
主成分分析、聚类分析、判别分析
PCA
只用来做降维,不要用作其他功能。将多个指标降成低维度的指标。还可以用于降维可视化。
聚类方法
系统聚类,分层聚类,K-means聚类,无监督学习。
明确交代使用的距离和其他参数。
判别分析
距离判别,Fisher判别,Bayes判别,逐步判别,神经网络,DT
机器学习
Logistic回归,岭回归、Lasso回归,KNN,CART(已取代ID3和C4.5),BP,RBF,SVM,SVR,RF,XGboost,LightLGB,GBDT
需要明确:是分类问题还是回归问题?
带钢那题既可以是回归也可以是分17类,但一定要说清楚是分类还是回归
回归的评价指标
SSE,MES,RMSE,MAE,MAPE
分类的评价指标
TP FN FP TN,ROC,AUC,Acc,Recall,Precision,F1 Score
聚类的评价指标
外部评价指标:纯度Purity
内部评价指标:轮廓系数SC,CH
时间序列预测模型
自回归滑动平均:AR,MA,ARMA,ARIMA,SARIMA
广义自回归条件异方差:ARCH,GARCH,T-GARCH
长短期神经网络:LSTM
……
优化题
牢抓:建模和求解
建模三要素:决策变量,目标函数,约束条件
求解:软件直接解(Lingo/Matlab),智能优化算法(SA,GA,PSO),贪婪算法(智能优化算法解不出来的时候用),穷举法(用的少)
随机搜索和蒙特卡洛不能用于求解,只能用于检验
多目标规划问题解法
主要目标法:用的多,将次要目标转成约束
分层序列法:用的少。
加权求和法:也用的多。
论文写作步骤
- 算法步骤
- 流程图
- 参数
- 迭代过程(适应度随着迭代次数变化的折线/散点图)
注意事项
三昧真火
- 真优化:建立真正的优化模型
目标函数和约束条件都是决策变量的函数或复合函数。式子具有自洽性,能够完整表达。
- 真求解:求解真正的优化模型
真的能解的出来,有完整的求解步骤,不能是编的答案。
- 求真解:验证解的可行性
解是否满足约束条件,是否为可行解。
机理题
大胆做
注意机理题和数据题的融合。能机理的就从机理角度出发,不要从数据角度。
赛中建议
- 清楚原理,明确过程,图示清晰展示
- 模型假设需要慎重
- 需要做大量的误差分析和灵敏度分析
论文写作
摘要
-
总述问题
-
模型、算法、结果。这三个加粗
-
评价与推广,灵敏度分析等
不要公式,不要图表,不要有“见表1”这样的字眼
问题重述
不要复制原题。注意查重。
查重全文库和自建库均需\(\le20\%\)
重点注意:问题重述、算法描述和步骤、代码
解决查重
- 问题重述:用自己的话写重述,少写重述
- 算法:用自己的话说,步骤也自己写
- 代码:尽量自己打,尽量多插入一些注释语句,或者不放附录
模型假设
一般把握不准的假设需要进行验证
符号说明
不要用英文单词。
控制表格行间距(表格行高度)一样。
问题分析
概念解析,思路剖析,方法介绍,技术思路图。
模型求解
虚拟代码,流程图,参数设置(用一张表列出来)
模型评价
有就可以。
缺点少说,给一些确实无法克服的问题。
参考文献
正文中一定要标注对应的参考文献,不能虚假引用。
可以知乎百度文库。引用质量较高的文献。
附录
重要的结果数据应该在正文中列(而不放附录)。
论文中难以罗列的、详细的结果、数据表格可以放附录。
软件、版本、解决什么问题。
- 附录1
- 介绍:使用xxx,版本xxx,解决问题xxx中xxx
- 代码
排版工整紧凑。
图
彩色+线条形状区分,要使黑白彩色都清晰好看。
提交
提交PDF,文件名无所谓,上传上去会自动重命名
不要页眉不要目录。页码从第一页开始。
我的论文.pdf
支撑材料
压缩包内的任何位置都不能出现违规信息。
注意文件(夹)命名,代码中的相对/绝对路径,不要出现名字/个人信息/队伍信息。
全部放入我的支撑材料
文件夹,然后压缩成单个RAR压缩包再上传。
20MB限制
提交MD5
检查PDF之后,最后再生成MD5
控制时间
8日中午12点前,完成论文初稿。
熬夜建议
-
第一晚确定选题,适量加班(12-2点)
-
9.6晚好好睡
-
9.7晚别睡了
饭
6-7日两日提供中餐和晚餐
8日午餐需预约
标签:分析,竞赛,大学生,求解,模型,建模,算法,聚类,回归 From: https://www.cnblogs.com/Vanilla-chan/p/18432631