从去年年末开始到现在,大语言模型(Large Language Models,LLM)热度依旧不减。
有实力烧钱的机构在训练自己的LLM,没实力想凑热闹的更聚焦在垂直领域的应用上,绝大多数企业属于后者。
每个行业多多少都有人在做基础模型的微调和打造私有知识库,以期不被时代抛弃。
医疗、法律、金融、教育、心理学等等都已经公开不少大模型。农业育种也不例外,虽然听起来很穷。
小编推测肯定是有不少单位在做类似的事情,只是有些在憋大招,而有些已经迫不及待地放出消息蹭热点了。
比如HSAT公司的CropGPT,动用上千名员工收集了数十亿条数据,以作物的气象和卫星数据为基础,以数百万页的作物研究为训练基础建立模型,每日更新本地报告。宣称是全球首个作物GPT,将会成为世界标准。
具体查看官网:https://hsat.space/crop-gpt-hsat/
小编试着联系了下,说是商用,不公开任何细节。因此具体应用如何,不得而知。
国内,华中农大/三亚智惠曲辰的李林教授在宣传他们的CropGPT和CornGPT。据说CornGPT已经为陕西秦丰、甘肃五谷、广东绿色科技等多家种企提供服务了。
但从宣传的资料来看,怎么感觉更像是科研服务呢?
相比于包装推广语料,作为一个数据分析人员,我更关注的是算法。
目前研究表明,作物的主效基因太少。因此,分子标记辅助选择(MAS)只针对于抗性等明星基因有效,对于产量这种低遗传力性状是非常有限的。虽然近年来频频有作物高产基因(如30%、40%、50%,甚至60%)发表CNS,但育种家很清楚,把它们放在群体中,显不显著都是一回事。最近几天朋友圈霸屏的Nature文章就批评了这种现象:不要过度吹捧单个或几个基因就可以大幅增加产量,评价产量需要看5个标准。
基因组选择是解决低遗传力性状的很好方法,如果我们无法确切的知道究竟哪些位点起效应,那么不如把它们都纳入进来,根据连锁不平衡,总有起作用的。但李林教授认为以多组学为基础的基因调控网络为单位(而非单组学单基因)来做动植物性状预测比GS的效果更好,并发表了数篇高水平论文。
但是,基因调控何其复杂,测多组学的全息功能图谱便能解析出某一性状的全部相关基因或功能元件吗?围绕中心法则的各个组学根本不存在明显的对应关系,且不说技术本身的局限性(如代谢组的准确性是需要打问号的),就是遗传信息中间每一环节都受到时空调控的变化,以及环境的影响。
徐士忠老师、徐辰武老师、李慧慧老师等团队基于多组学数据做过GS研究,证明多组学数据应用到GS确实能提高准确性。小编认为,Systems biology、multi-omics、single cell、STOmics等技术做做学术科研、搞搞理论基础可以,也挺有意义的。但离实际育种应用还很遥远,抛开复杂性不谈,想想成本就不可能。
同样是化零为整的思路,中国农大的汪海老师以基因家族为单位随机分配训练集和测试集数据来预测基因表达量,这样的做法就显得更可信一些,当然这不属于GS和LMM的内容了。
此外,还有一些公司也号称在做生成式育种AI平台,比如天丰智慧(TFseeds),但更多只是类似科服的宣传,没有看到实质性的东西。
总之,目前有一些相关的学术研究,但在应用层面,尚没有透露出太多有关生成式育种的信息。可能要等其他领域出现范式时,育种模型才知道怎么做。
国内
国外
标签:GS,多组,模型,基因,聊聊,育种,作物 From: https://www.cnblogs.com/miyuanbiotech/p/18250660