首页 > 其他分享 >八月组队学习!

八月组队学习!

时间:2023-08-04 21:34:46浏览次数:20  
标签:github 八月 学习 组队 开源 https 数据


 Datawhale学习 

开源贡献:Datawhale团队

本月组队学习,是目前学习系列最多的一次。不仅包含吃瓜教程(西瓜书+南瓜书)、李宏毅深度学习、动手学数据分析、NLP入门、还包括数据采集、数据化运营、SQL、R语言等多个模块。

八月组队学习!_机器学习

八月组队学习!_数据分析_02

文末有报名方式

关于开源

Datawhale作为开源组织,更多是希望营造互促的学习氛围和纯粹的学习环境,所有学习内容和学习规划都将开源在Datawhale Github上,方便大家有监督和无监督学习,从而帮助到更多学习者成长。

开源内容

截止今日,Datawhale已经近开源50多门学习内容,涉及编程、数据科学、cv、nlp、强化学习和推荐系统6大模块,这来自每一个开源贡献者的参与。

开源地址

https://github.com/datawhalechina/team-learning

什么是组队学习?

顾名思义,就是一群志同道合的小伙伴,一起学习讨论,一起克服拖延症,一起组队打boss。没有老师,没有教学,有的是一群热爱学习和渴望改变的人,交流学习,互促共进。或许你可以从这些文章进一步了解:《闻韶:我的组队学习经历》、《罗如意:从学习者到加入组织》、《黄元帅:组队学习的大航海模型》

开源学习

机器学习

1 /机器学习:吃瓜教程


开源贡献:谢文睿、秦州、薛皖中

内容说明:周志华老师的“西瓜书”是机器学习经典入门教材,值得反复阅读,配合“南瓜书”从本科数学基础的视角进行讲解,一起打好基础!

任务路线:以《机器学习》西瓜书为主线,配合南瓜书攻克疑难点。

学习周期:18天

定位人群:有本科数学基础(高等数学、线性代数、概率论与数理统计)的同学

任务预览


Task02:概览西瓜书、南瓜书第3章(6天)

  • 《机器学习》第3章
  • 涉及的线性回归等数学难点



2 /集成学习


开源贡献:李祖贤、薛传雨、六一、杨毅远、陈琰钰、陈玉立、解婷婷

内容说明:详细介绍了机器学习领域中最经典的算法并给出了相应的数学推导和代码,对于每个算法都进行了细致的分析以及必要的代码的演示,便于学习者深刻理解本质。在案例的代码中也给出了详细的代码注释。

任务路线:掌握基本的回归模型、偏差与方差理论、回归模型的评估及超参数调优等

学习周期:20天

定位人群:具备本科数学基础,会使用常见的数据分析工具,既想系统学习sklearn工具库解决机器学习问题,又想系统学习机器学习算法理论的数学推导的学习者。

任务预览


Task02:回归问题(2天)

  • 数据科学永恒不变的主题也许就是调参吧,从偏差与方差理论中得到启发,从数学理论和代码上掌握回归模型的评估及超参数调优



数据科学


3 / 数据采集从入门到精通


开源贡献:牧小熊、姜萌、叶前坤

内容说明:学会使用八爪鱼进行数据采集,核心亮点是数据采集的简单化、可视化以及无代码化。提示:不过多讲解爬虫的相关知识

任务路线:掌握数据采集工具八爪鱼的学习方法,能够采集相关数据

组队学习周期:14天

定位人群不用敲代码,对数据采集有兴趣的同学都可

任务预览


Task02 自动识别初体验 (3天)

  • 微博数据抓取
  • 豆瓣图书输出抓取
  • 采集逻辑与流程*



4 / SQL编程语言


开源贡献:王复振、杨煜、闫钟峰、杨梦迪、苏鹏、红星、张晋、汪健麟、勇跃、王嘉鹏、陈锴、牧小熊、葛爽

内容说明:Follow me,从 0 到 1 掌握 SQL,决胜秋招

任务路线:完成SQL使用环境搭建,了解关系型数据库的基本特点,熟悉SQL增删改查基本操作,进一步掌握视图、子查询、函数、窗口函数等高阶用法,最后试一试秋招秘籍,检验下自己学习的效果。

组队学习周期:15天

定位人群:0基础学员,希望掌握SQL基础查询的同学

任务预览


Task04 集合运算(3天)

  •  表的加减法
  •  连结(JOIN)



5 / R语言数据科学


开源贡献:张晋、杨佳达、牧小熊、杨杨卓然、姚昱君、刘娜

内容说明:学会使用R语言,并应用其完成统计分析、可视化、建模等操作。说明:本课程适用于R语言入门,不会过多讲解统计、模型方面底层原理。

任务路线:掌握R语言基本操作,利用R语言进行数据清洗,了解R语言中的统计分析、可视化分析、模型分析。

组队学习周期:16天

定位人群:对数据科学有基本了解,希望学习R语言的同学

任务预览


Task02 数据清洗与准备 (3天)

  • 重复值处理
  • 缺失值识别与处理
  • 异常值识别与处理
  • 特征处理
  • 规范化与偏态数据



6 / 动手学数据分析


开源贡献:陈安东、金娟娟、杨佳达、老表、李玲、张文涛、高立业、李婉桦、范佳慧、July、叶前坤

内容说明:以项目为主线,通过边学,边做以及边被引导的方式,既掌握知识点又能掌握数据分析的大致思路和流程。

任务路线:了解数据分析中基本库的操作;熟悉数据分析的操作流程,建立数据分析思维,入门数据建模。

组队学习周期:11天

定位人群:懂一些python,希望入门数据分析的学习者。

任务预览


Task01:数据加载及探索性数据分析(2天)

  • 了解数据加载以及数据观察
  • 掌握pandas基础
  • 完成探索性数据分析



7 / 基于Python的会员数据化运营


开源贡献:红星、曹志宾、孙健坤、刘雯静、李晴晴

内容说明:了解企业数据化运营中,运用数据工具对会员进行运营的思路和方法,了解RFM模型的运用,掌握Python处理数据的技巧,掌握Excel表的可视化图表及透视工具。

任务路线:第一周学习和体会业务场景中数据化运营的重要性和方法论,第二周对数据化运营中用户分析模型RFM模型进行实操和练习

组队学习周期:14天

定位人群:对业务类数据分析感兴趣者、希望深入了解业务知识的应届生或在校生等

任务预览


Task01:数据化运营知识板块的学习(7天)

  • 数据化运营概述
  • 会员运营与用户运营概述
  • 会员数据指标及分析模型介绍



深度学习


8 /李宏毅深度学习


开源贡献:王茂霖、陈安东、刘峥嵘、李玲、牛志康

内容说明:辅助大家更好学习李宏毅老师深度学习视频,并加入相关补充资料,相信你会对机器学习有更加深刻的理解。

任务路线:李宏毅视频+解读辅助

学习周期:14天

定位人群:深度学习初学者,有微积分,线性代数基础

任务预览


Task:深度学习介绍

  • 整体介绍深度学习的发展,现状和分类
  • 了解深度学习的基础知识



9 /基于transformers的自然语言处理(NLP)入门


开源贡献:多多、erenup、张帆、张贤、李泺秋、蔡杰、hlzhang、段秋阳

内容说明:希望结合形象生动的原理讲解和多个动手实践项目,帮助初学者快速入门深度学习时代的NLP

任务路线:以NLP经典任务和Transformer为主线,配合经典模型讲解和7个经典的代码实践

组队学习周期:16天

定位人群:NLP初学者,有一定的python、pytorch编程基础,了解和知道简单的深度学习模型

任务预览


Task03:编写一个Transformer模型:BERT(2天)

  • 3.1-如何实现一个BERT
  • 3.2-如何应用一个BERT
  • 3.3-篇章小测



 数理基础


9 /机器学习数学基础【第一期】


开源贡献:李祖贤、张智涵、戴治旭、黄浩霖、邱广坤

内容说明:本课程主要针对考研的同学,另外如果想系统学习大学数学,或者是想为深造机器学习补充数学基础的的同学也是可以进来的,前提是必须要跟上节奏,不能掉队。

任务路线:以张宇考研数学为主线,进行讲解。第一期为从极限理论到一元函数积分学的计算

学习周期:8月份第一期24天,截至12月共5期

定位人群:2022考研学生

⚠️ 特别提示:本课程跟随组队学习进度开展,可在当月组队学习开始时加入正在进行的学习内容

任务预览


Task01:函数极限与连续性(3天)



青少年编程


11 /Scratch 一级


开源贡献:王思齐、马燕鹏

内容说明:抽取电子学会青少年编程能力等级测试图形化一级的真题来组成试卷,在做题目的过程中掌握图形化编程的基本知识。

任务路线:由于测试题目为往年电子学会Scratch一级考试的真题,所以通过做题来掌握Scratch一级考试的知识点,为通过考试做准备。

组队学习周期:12天

定位人群:对图形化编程感兴趣的小朋友(小学3年级及以上)

任务预览


Task04:测试四(2天)

  • 判断题、选择题测试
  • 编程题测试



参与学习

快速通道

1.  机器学习:吃瓜教程⭐

开源内容:https://github.com/datawhalechina/pumpkin-book


2. 集成学习⭐⭐⭐

开源内容:https://github.com/datawhalechina/ensemble-learning


3. 数据采集从入门到精通⭐

开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/CollectData


4. SQL编程语言⭐

开源内容:https://github.com/datawhalechina/wonderful-sql


5. R语言 数据科学⭐

开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/RLanguage


6. 动手学数据分析⭐⭐

开源内容:https://github.com/datawhalechina/hands-on-data-analysis


7. 基于Python的会员数据化运营⭐⭐

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/MemberOperations


8. 李宏毅深度学习⭐⭐

开源内容:https://github.com/datawhalechina/leeml-notes


9. 基于transformers的NLP入门⭐⭐

开源内容:https://github.com/datawhalechina/Learn-NLP-with-Transformers


10. 机器学习数学基础⭐⭐

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/Mathematics


11. 青少年编程(Turtle)⭐

开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/Scratch

学习规则

为了我们更好的学习效果,请关注以下规则:

1. 需交督促金3块(1块学习,1块分享,1块成长),按时完成所有任务返还;

2. 需要有Github或博客等公共账号,记录学习笔记打卡;

3. 未按时打卡的同学会被抱出群


标签:github,八月,学习,组队,开源,https,数据
From: https://blog.51cto.com/u_15699042/6968609

相关文章

  • 荐书 | 10 本机器学习电子书,美版 Kindle 免费读
    By超神经内容一览:本期荐书主要关注机器学习在数据处理方面的应用,10本书既有入门书籍,也有进阶书籍,适合关注数据科学、统计学方面的读者阅读。关键词:书籍推荐  机器学习  深度学习机器学习在处理数据问题方面具有显著优势,随着技术的发展,也涌现了一批又一批的开发工具、先进算......
  • 《小规模机器学习中的正样本-未标注样本学习》方法教程转载汇总
     《小规模机器学习中的正样本-未标注样本学习》方法教程转载汇总tinyMLTalksPhoenix-1.PositiveUnlabeledLearningforTinyMLPULearningTutorial-2.PULearningdefinitionsPULearningTutorial-3.AssumptionstoenablePULearning......
  • 数据结构学习3
    树型结构:1、树的基本概念:一种表示层次关系(一对多)的数据结构有且仅有一个特定节点,该节点没有前趋节点,称为这棵树的根节点剩余有n个(n>=0)有限个多节点组成互不相交的子集,每个子集都可以是一棵树,都被称为根节点的子树注意:树中有树,树型结构具有递归性2、树的表示方式:倒悬树、凹......
  • 博弈论学习笔记
    引入OI中的博弈论主要研究的是公平组合游戏。什么是公平组合游戏(\(\text{ImpartialGame}\))?游戏有两个人参与,双方轮流作出决策,双方均知道完整的游戏信息。任意一个游戏者在某一确定状态可以作出的决策集合只与当前的状态有关,而与游戏者无关。游戏中同一个状态不能多次抵达,......
  • STM32案例学习 GY-39环境监测传感器模块
    STM32案例学习GY-39环境监测传感器模块硬件平台野火STM32F1系列开发板正点STM32F1系列开发板STM32F103ZET6核心板GY-39环境监测传感器模块GY-39环境监测传感器模块GY-39是一款低成本,气压,温湿度,光强度传感器模块。工作电压3-5v,功耗小,安装方便。其工作原理是,MCU收集各种传感器......
  • 在线就能用的 SQL 练习平台(附SQL学习文档)
        对大数据和数据分析感兴趣的同学,如何入门一直是一个大问题。    而对于找工作的同学,笔试和面试环节也一直是一个让人头疼的问题。其实企业也很头疼,不进行笔试,怕被面试者忽悠。进行笔试可能又把某些大牛筛出去了。但是不管怎么说,有些硬技能还是需要的,比如做大数据来说,如......
  • 关于Python的学习记录(二十一_对象的序列化和反序列化)
    JSON概述在Python中,我们可以将程序中的数据以JSON格式进行保存。JSON是“JavaScriptObjectNotation”的缩写,它本来是JavaScript语言中创建对象的一种字面量语法,现在已经被广泛的应用于跨语言跨平台的数据交换。使用JSON的原因非常简单,因为它结构紧凑而且是纯文本,任何操......
  • openGauss学习笔记-30 openGauss 高级数据管理-别名
    openGauss学习笔记-30openGauss高级数据管理-别名SQL可以重命名一张表或者一个字段的名称,这个名称为该表或该字段的别名。创建别名是为了让表名或列名的可读性更强。SQL中使用AS来创建别名。30.1语法格式30.1.1列别名语法SELECT{*|[column[AS]output_name,...]}......
  • DL学习-ctc解码
    参考基于CTC的序列模型:https://distill.pub/2017/ctc/ctc解码方式:Greedydecode,每次都选取概率最大。BeamSearch,对规整字符串进行束搜索算法。FSTStatusEncode对齐方式:方案1:为每个输入步骤分配一个输出字符,堆叠重复的字符。方案2:为字符添加blank用于防止hello被误解......
  • UE4学习笔记:光照移动性和物体移动性在构建光照时候的不同作用
    本随笔用于记录随笔作者在学习UE4光照系统过程中对不同移动性的光源对不同移动性的模型产生不同的效果的总结,编写本随笔时UE4引擎版本为4.27。随笔作者还处在学习阶段,难免会出现技术上和书写上的问题,如若发现类似的问题,欢迎在评论区或者私信与我讨论。目录静态(Static)光源静态(Sta......