首页 > 其他分享 >聊聊育种大模型

聊聊育种大模型

时间:2024-06-16 15:22:13浏览次数:23  
标签:GS 多组 模型 基因 聊聊 育种 作物

从去年年末开始到现在,大语言模型(Large Language Models,LLM)热度依旧不减。

有实力烧钱的机构在训练自己的LLM,没实力想凑热闹的更聚焦在垂直领域的应用上,绝大多数企业属于后者。

每个行业多多少都有人在做基础模型的微调和打造私有知识库,以期不被时代抛弃。

医疗、法律、金融、教育、心理学等等都已经公开不少大模型。农业育种也不例外,虽然听起来很穷。

小编推测肯定是有不少单位在做类似的事情,只是有些在憋大招,而有些已经迫不及待地放出消息蹭热点了。

比如HSAT公司的CropGPT,动用上千名员工收集了数十亿条数据,以作物的气象和卫星数据为基础,以数百万页的作物研究为训练基础建立模型,每日更新本地报告。宣称是全球首个作物GPT,将会成为世界标准。

具体查看官网:https://hsat.space/crop-gpt-hsat/

小编试着联系了下,说是商用,不公开任何细节。因此具体应用如何,不得而知。

国内,华中农大/三亚智惠曲辰的李林教授在宣传他们的CropGPT和CornGPT。据说CornGPT已经为陕西秦丰、甘肃五谷、广东绿色科技等多家种企提供服务了。

但从宣传的资料来看,怎么感觉更像是科研服务呢?

相比于包装推广语料,作为一个数据分析人员,我更关注的是算法。

目前研究表明,作物的主效基因太少。因此,分子标记辅助选择(MAS)只针对于抗性等明星基因有效,对于产量这种低遗传力性状是非常有限的。虽然近年来频频有作物高产基因(如30%、40%、50%,甚至60%)发表CNS,但育种家很清楚,把它们放在群体中,显不显著都是一回事。最近几天朋友圈霸屏的Nature文章就批评了这种现象:不要过度吹捧单个或几个基因就可以大幅增加产量,评价产量需要看5个标准

基因组选择是解决低遗传力性状的很好方法,如果我们无法确切的知道究竟哪些位点起效应,那么不如把它们都纳入进来,根据连锁不平衡,总有起作用的。但李林教授认为以多组学为基础的基因调控网络为单位(而非单组学单基因)来做动植物性状预测比GS的效果更好,并发表了数篇高水平论文。

但是,基因调控何其复杂,测多组学的全息功能图谱便能解析出某一性状的全部相关基因或功能元件吗?围绕中心法则的各个组学根本不存在明显的对应关系,且不说技术本身的局限性(如代谢组的准确性是需要打问号的),就是遗传信息中间每一环节都受到时空调控的变化,以及环境的影响。

徐士忠老师、徐辰武老师、李慧慧老师等团队基于多组学数据做过GS研究,证明多组学数据应用到GS确实能提高准确性。小编认为,Systems biology、multi-omics、single cell、STOmics等技术做做学术科研、搞搞理论基础可以,也挺有意义的。但离实际育种应用还很遥远,抛开复杂性不谈,想想成本就不可能。

同样是化零为整的思路,中国农大的汪海老师以基因家族为单位随机分配训练集和测试集数据来预测基因表达量,这样的做法就显得更可信一些,当然这不属于GS和LMM的内容了。

此外,还有一些公司也号称在做生成式育种AI平台,比如天丰智慧(TFseeds),但更多只是类似科服的宣传,没有看到实质性的东西。

总之,目前有一些相关的学术研究,但在应用层面,尚没有透露出太多有关生成式育种的信息。可能要等其他领域出现范式时,育种模型才知道怎么做。



附国内外主要公司布局的大语言模型

国内

国外

参考:https://zhuanlan.zhihu.com/p/638149613

标签:GS,多组,模型,基因,聊聊,育种,作物
From: https://www.cnblogs.com/miyuanbiotech/p/18250660

相关文章

  • 遗传育种群体类型及其特点
    简介不同划分方法:自交和回交群体人工和自然群体双亲和多亲群体遗传和育种群体临时性和永久性群体初级和次级群体遗传分析中常用作图群体来构建遗传图谱或进行基因定位。作图群体是进行QTL定位的基本材料,其基本步骤如下:首先选择在目标性状上差异较大的亲本,选择一种杂交......
  • 大模型网信办备案全网最详细流程【附附件】
    本文要点:大模型备案最详细说明,大模型备案条件有哪些,《算法安全自评估报告》模板,大模型算法备案,大模型上线备案,生成式人工智能(大语言模型)安全评估要点,网信办大模型备案。大模型备案安全评估流程详细说明,见下图:大模型安全评估流程图算法备案安全评估流程详细说明,见下图:算......
  • AI大模型探索之路-实战篇:智能化IT领域搜索引擎之知乎网站数据获取(流程优化)
    系列篇章......
  • Demo | 利用机器学习构建作物模型的Python源码
    作物模型提出很早,但应用有限。看起来复杂,其实解决的是环境与表型间的关联,可参考前期推文:作物生长模型CropGrow。环境组的复杂,关键在于数据的准确性获取。对于数据分析人员来说,如果不care数据准确性,分析其实很简单的,就是经典的机器学习流程。这里提供一段伪代码仅供参考。1.导库......
  • 四. TensorRT模型部署优化-quantization(mapping-and-shift)
    目录前言0.简述1.近10年模型的变化与硬件的发展2.模型量化回顾3.什么是量化4.量化会出现什么问题5.量化的基本原理:映射和偏移6.量化的基本原理:基本术语6.1量化和反量化6.2对称量化和非对称量化6.3量化粒度6.4校准6.5PTQ和QAT7.其他:有关量化学习的激活函数......
  • 课前准备-单细胞velocity分析(贝叶斯模型)
    作者,EvilGenius速率ProbabilisticmodelingofRNAvelocityDirectmodelingofrawsplicedandunsplicedreadcountMultipleuncertaintydiagnosticsanalysisandvisualizationsSynchronizedcelltimeestimationacrossgenesMultivariatedenoisedgeneexpress......
  • 推荐 | 最新书籍《大语言模型》
    大语言模型LLM综述文章《ASurveyofLargeLanguageModels》已经更新到第13个版本。该综述系统梳理LLM的研究进展与核心技术,讨论了大量的相关工作。2023年12月底作者们继续启动了中文书的编写工作,并且于近期完成初稿。与英文综述定位不同,中文书籍更注重大模型技术的入门,在内容......
  • 首个种业大语言模型“丰登”(SeedLLM)
    昨天被首个种业大语言模型“丰登”刷屏,崖州湾实验室、中农、上海AI实验室三家单位共同发布,官方报道侧重各有不同,这里放到一起看看。没测试,不做评价。崖州湾实验室发布4月28日,崖州湾国家实验室精准设计与智造团队,中国农业大学和上海人工智能实验室共同发布了首个种业大语言模型“......
  • 接下来的一系列育种相关会议。。。
    4月在南京参加了第七届全国玉米生物学学术研讨会,诚如大会名字所言的“学术研讨”,邀请了国内外相关领域具有重要学术影响力的专家学者和优秀青年科学家进行学术报告及成果展示,与育种产业相关的内容很少。但能够看到的是,接地气的研究越来越多(最多的还是功能基因组学研究),学术与产业......
  • 密植高产是我国玉米育种的最核心目标
    品种是玉米高产的基础,进一步提高品种耐密性和种植密度是提高玉米单产的关键。在近80年中,美国玉米单产提升了近8倍,这个过程中种植密度从平均每亩2000多株增加到近6000株,种植密度贡献显著。我国高产玉米新品种更新迭代过程中,玉米株型也逐渐从平展型演变成紧凑型,品种的耐密性明......