• 2024-07-04【2024datawhale 分子AI预测赛笔记】数据挖掘速通Baseline -分类/回归
    赛题概述精准预测分子性质有助于高效筛选出具有优异性能的候选药物。以PROTACs为例,它是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成,靶向降解目标蛋白质。(研究PROTACs技术在靶向降解目标蛋白质方面的潜力。)提醒:需要python和机器学习基础。赛事任务根据提
  • 2024-06-22数据挖掘——机器学习算法应用
    1. 朴素贝叶斯分类器数据UniversalBank是一家业绩快速增长的银行。为了增加贷款业务,该银行探索将储蓄客户转变成个人贷款客户的方式。银行收集了5000条客户数据,包括客户特征(age、experience、income、family、CCAvg、education、ZipCode)、客户对上一次贷款营销活动的响
  • 2024-06-22数据挖掘与分析——数据预处理
    数据探索波士顿房价数据集:卡内基梅隆大学收集,StatLib库,1978年,涵盖了麻省波士顿的506个不同郊区的房屋数据。一共含有506条数据。每条数据14个字段,包含13个属性,和一个房价的平均值。数据读取方法:importpandasaspdimportmatplotlib.pyplotaspltimportseabornass
  • 2024-06-17基于数据挖掘的虚假评论识别方法研究(论文模版参考)
    第一章绪论1.1研究背景和意义随着互联网和社交媒体的快速发展,人们越来越倾向于在网络上表达自己的观点和评价。虚假评论作为网络评论的一种,对消费者、商家以及整个市场都带来了很大的影响。虚假评论不仅误导了消费者的购买决策,损害了商家的信誉,还可能导致市场竞争的扭曲
  • 2024-06-13【保姆级介绍下数据挖掘案例分析】
  • 2024-06-12朴素贝叶斯分类器 #数据挖掘 #Python
    朴素贝叶斯分类器是一种基于概率统计的简单但强大的机器学习算法。它假设特征之间是相互独立的(“朴素”),尽管在现实世界中这通常不成立,但在许多情况下这种简化假设仍能提供良好的性能。基本原理:朴素贝叶斯分类器利用贝叶斯定理,计算给定输入特征条件下属于某个类别的概率,并选择
  • 2024-06-10base上海,数据科学,数据挖掘,数据分析等岗位求收留
    裁员了,base上海,数据科学,数据挖掘,数据分析等岗位,期望30k~40k,求推荐求收留1,6年数据算法工作,做过指标体系搭建,用户画像,货品定价,社区分析,销量预测,车货匹配,运筹优化等项目;2,熟悉回归,分类,聚类等机器学习算法,熟练掌握python,MySQL和Clickhouse等数据库,Hadoop大数据生态,Pytorch深度
  • 2024-06-09【机器学习】与【数据挖掘】技术下【C++】驱动的【嵌入式】智能系统优化
    目录一、嵌入式系统简介二、C++在嵌入式系统中的优势三、机器学习在嵌入式系统中的挑战四、C++实现机器学习模型的基本步骤五、实例分析:使用C++在嵌入式系统中实现手写数字识别1.数据准备2.模型训练与压缩3.模型部署六、优化与分析1.模型优化模型量化模型剪枝
  • 2024-06-08数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法
    数据挖掘--引论数据挖掘--认识数据数据挖掘--数据预处理数据挖掘--数据仓库与联机分析处理数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法数据挖掘--分类数据挖掘--聚类分析:基本概念和方法频繁项集、闭项集和关联规则频繁项集:出现的次数超过最小支持度计数阈值
  • 2024-06-02数据挖掘技术
      1.相关性  相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。  对两个随机变量X和Y,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每个时刻的乘积求和并求出平均值。  协方差为正,说明X和Y
  • 2024-05-27【会议征稿,SPIE独立出版】第五届计算机视觉和数据挖掘国际学术会议(ICCVDM 2024)
    第五届计算机视觉与数据挖掘国际学术会议(ICCVDM2024)将于2024年7月19-21日在中国长春举行。此前,ICCVDM系列会议于2020年在中国西安、2021年在中国长沙(线上)、2022年在中国呼伦贝尔(线上+线下)、2023年在中国长春(线上+线下)皆已成功举办。ICCVDM为世界各地该领域的专家、学者、
  • 2024-04-24理解Transformer [数据挖掘深度学习]
    属性离散/连续离散属性:具有有限或无限可数个值,不一定为整数。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。离散属性可以具有数值。如对于二元属性取0和1,对于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自
  • 2024-04-20R语言入门与数据分析
    课程介绍R是免费的,R是一个全面的统计研究平台,提供了各式各样的数据分析技术,R拥有顶尖的绘图功能1-9数据分析的内容,学习R的目的10-15R的基本操作16-17R的数据结构和操作,最基础最重要28-33R对文件的操作数据分析数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物
  • 2024-04-10COMP 3027J数据挖掘与机器学习
    数据挖掘与机器学习COMP3027J课业1重量:40%提交:Brightspace上的报告(PDF)和zip文件(包括代码和数据集)。本课业的目的是练习如何使用数据挖掘和机器学习解决现实世界中的问题。您需要自己确定目标问题。你可以选择任何项目,但它必须是一个分类任务,并且在汇报(注意:不要与课业2中的数据集
  • 2024-04-01如何系统学习数据分析?需要学习那些知识
    大数据时代到来,如何从数据中提取、挖掘对业务发展有价值的、潜在的知识,为决策层的决策提供有力依据,为产品或服务发展方向提供指引,有力推动企业管理的精益化,对于每个企业都意义重大。而这些工作,大多需要数据分析师才能完成,但如何才能系统学习数据分析成为一名合格的数据分析
  • 2024-03-28AGI的数据驱动:大数据数据挖掘与知识图谱
    AGI的数据驱动:大数据、数据挖掘与知识图谱作者:禅与计算机程序设计艺术1.背景介绍人工通用智能(AGI)的实现一直是人工智能领域的终极目标。然而,要实现AGI需要解决诸多关键技术难题,其中数据驱动是其中最为重要的一环。大数据、数据挖掘以及知识图谱等技术的发展为AGI的
  • 2024-03-24python数据挖掘实验一:数据分析及可视化应用
    1.导入pandas包importpandasaspd2.根据给定的原始数据集创建一个DataFrame类型对象dfdata={'id':[10001,10002,10003,10004,10005,10006,10007,10008,10009,10010],'name':['LY','CE','ZS','LS','WU','
  • 2024-03-24tcs393数据挖掘
    tcs393数据挖掘分组分配【每组2-3名成员】这项课业相当于本模块总分的25%。此课业旨在帮助学生探索和分析一组数据,并将其重建为有意义的数据决策代表。在线环境不断发展,网站成为企业的重要资产,组织和个人。随着互联网的不断发展高效的网站分类变得至关重要。了解网站的性质内容及
  • 2024-03-22数据仓库的数据处理架构Lambda和Kappa
    1.数据仓库数据仓库(Data Warehouse),简写DW。顾名思义,数据仓库是一个很大的数据存储集合,为企业分析性报告和决策支持而创建,是对多元业务数据的筛选与整合,具备一定的BI能力,主要用于企业的数据分析、数据挖掘、数据报表等方向,指导业务流程改进、监视时间、成本、质量以及控
  • 2024-03-15【数据挖掘】家庭用电预测——数据清洗与数据分析
    任务利用一个家庭的用电量,来预测这个家庭未来的用电量。学会了这一个例子,如果有电网数据,就可以开发出适合各种业务需求的模型。比如: 通过预测各时段各区域的用电量来协助电网更好地实现电能调度 用于新能源电站(光伏、风力、水电)发电量预测数据集数据集来源:加州大
  • 2024-03-15【数据挖掘】实验2:R入门2
    实验2:R入门2一:实验目的与要求1:熟悉和掌握R数据类型。2:熟悉和掌握R语言的数据读写。二:实验内容1:R数据类型【基本赋值】Eg.1代码:x<-8x Eg.2代码:a='city'a【缺省值】Eg.1代码:(1)生成向量z;(2)返回z的结果;(3)识别z的值是否有缺失值。z<-c(1:5,NA)zis.na(
  • 2024-03-15【数据挖掘】实验1:R入门(内含详细R和RStudio安装教程)
    实验1:R入门一:实验目的与要求1:根据上课PPT内容,掌握课堂知识并进行代码练习操作,提供练习过程和结果。2:可COPY代码运行结果直接提交,如涉及到输出图等可截图。二:实验内容1:R语言的下载与安装1.1:安装R语言从清华镜像网站(TheComprehensiveRArchiveNetwork)处下载Windows版
  • 2024-03-14数据规模:如何处理大规模数据集
    1.背景介绍1.1数据的爆炸式增长随着互联网的普及和物联网的发展,数据量呈现出爆炸式增长。据统计,全球每天产生的数据量已经达到2.5亿GB,预计到2025年,全球数据总量将达到175ZB。这些数据包括社交媒体、电子商务、物联网设备、科学研究等各个领域的数据。如何有效地处理和分
  • 2024-03-12Python毕业设计 人工智能与大数据专业毕业设计(论文)选题题目
    目录前言毕设选题人工智能大数据选题迷茫选题的重要性更多选题指导最后 前言  
  • 2024-03-11ETL的数据挖掘方式
    ETL的基本概念数据抽取(Extraction):从不同源头系统中获取所需数据的步骤。比如从mysql中拿取数据就是一种简单的抽取动作,从API接口拿取数据也是。数据转换(Transformation):清洗、整合和转化原始数据以适应目标存储或分析系统的阶段。从mysql中拿到数据之后对数据进行处理,像对数据的