首页 > 其他分享 >论文阅读笔记(十)——CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments

论文阅读笔记(十)——CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments

时间:2024-05-30 16:32:38浏览次数:16  
标签:Automated 基因 编辑 任务 Experiments LLM CRISPR GPT Editing

论文阅读笔记(十)——CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments

目录

Abstract

基因组工程技术的引入改变了生物医学研究,使得对遗传信息进行精确修改成为可能。然而,创建一个高效的基因编辑系统需要对CRISPR技术和复杂的实验系统有深入的了解。尽管大语言模型(LLMs)在各种任务中表现出了前景,但它们往往缺乏特定知识,难以准确解决生物设计问题。在这项工作中,我们介绍了CRISPR-GPT,这是一个增强了领域知识和外部工具的大语言模型代理,用于自动化和增强基于CRISPR的基因编辑实验的设计过程。CRISPR-GPT利用LLM的推理能力,促进CRISPR系统选择、导向RNA设计、细胞传递方法推荐、草拟方案和设计验证实验以确认编辑结果的过程。我们展示了CRISPR-GPT在从头开始协助非专家研究人员进行基因编辑实验的潜力,并验证了该代理在现实世界中的有效性。此外,我们探讨了与自动化基因编辑设计相关的伦理和法规考虑,强调了这些工具负责任和透明使用的必要性。我们的工作旨在弥合初学者生物研究人员与CRISPR基因组工程技术之间的差距,并展示LLM代理在促进复杂生物发现任务中的潜力。

简介

名词解释

CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats,成簇的规律间隔短回文重复序列)是一种基因编辑技术,它利用细菌的免疫机制来修改基因组。CRISPR技术主要包括两个部分:CRISPR序列和Cas(CRISPR-associated)蛋白。以下是对CRISPR的详细解释:

  • CRISPR序列: CRISPR序列是存在于细菌和古菌基因组中的一段DNA序列,包含了从入侵病毒中提取的短片段。这些片段存储在CRISPR序列中,形成一种记忆库,当同一病毒再次入侵时,细菌能够识别并攻击它们。
  • Cas蛋白: Cas蛋白(如Cas9)是一种与CRISPR序列相关的酶,具有切割DNA的功能。Cas蛋白可以被编程成切割特定的DNA序列,从而实现对基因组的精准编辑。

工作机制:

  • 识别目标: 科学家设计一段与目标基因序列互补的RNA(向导RNA或gRNA),这段RNA会引导Cas9蛋白到目标基因的位置。
  • 切割DNA: Cas9蛋白在gRNA的引导下,找到并结合到目标基因序列,然后在特定位置切割DNA双链。
  • DNA修复: 细胞会通过自身的修复机制来修复被切割的DNA。在这个过程中,可以插入、删除或替换特定的DNA片段,从而实现基因编辑。

引导编辑(Prime Editing)
引导编辑是一种“搜索和替换”的DNA方法,可以在不引入双链断裂的情况下进行精确编辑。这种方法结合了CRISPR-Cas9和逆转录酶(RT),利用引导RNA(pegRNA)引导编辑目标序列。

优点

  • 精确性高:可以在不引入双链断裂的情况下进行编辑,减少了不必要的插入或缺失(indels)的风险。
  • 多样性强:能够实现多种类型的基因组修改,包括插入、删除和点突变。
    减少脱靶效应:相对于传统的CRISPR-Cas9,引导编辑在降低脱靶效应方面更有优势,因为它不依赖于双链断裂。
  • 广泛应用:适用于修复各种遗传突变,特别是那些传统CRISPR方法难以修复的突变类型。

碱基编辑(Base Editing)
碱基编辑是一种能够直接将一个DNA碱基转换为另一个的技术,通过融合变异的Cas9蛋白(不切割DNA)和碱基转换酶(如脱氨酶),在特定位点实现碱基转换。

优点

  • 单碱基转换:能够直接、不可逆地将一个DNA碱基转换为另一个,非常适合修复单碱基突变引起的遗传疾病。
  • 无需双链断裂:减少了双链断裂相关的脱靶效应和细胞毒性,提升了编辑的安全性。
  • 高效率:在某些应用中,碱基编辑效率更高,适合于精确的点突变修复。
  • 应用广泛:特别适用于治疗因单碱基突变引起的遗传疾病,如镰刀细胞贫血和β地中海贫血。

脱靶效应(Off-target effects) 是指在基因编辑过程中,编辑工具(如CRISPR-Cas9、引导编辑或碱基编辑)在目标基因位点之外的其他基因位点也发生了非预期的编辑。这种效应可能导致意外的基因突变,从而引起不良后果。以下是对脱靶效应的详细解释:

原因

  • 序列相似性:编辑工具可能误认与目标序列部分相似的DNA序列,从而在这些非目标位点进行编辑。
  • 编辑工具的特性:某些Cas蛋白或碱基转换酶的特性可能导致在非目标位点也进行活性反应。
  • 向导RNA(gRNA)的设计:不理想的gRNA设计可能导致其与非目标DNA序列结合,从而引发脱靶效应。

影响

  • 基因功能失调:非目标位点的编辑可能破坏其他基因的功能,导致细胞功能异常或死亡。
  • 基因组不稳定性:广泛的脱靶效应可能引起基因组的不稳定性,增加癌变或其他疾病的风险。
  • 研究结果的可靠性:脱靶效应可能干扰实验结果的准确性,影响研究结论的可靠性。

检测和评估

  • 高通量测序:利用高通量测序技术检测编辑后基因组中的所有变异,评估脱靶效应。
  • 生物信息学分析:通过计算机算法预测潜在的脱靶位点,并在编辑前后进行比较。
  • 实验验证:在细胞或动物模型中验证潜在脱靶位点的实际变异情况。
    减少脱靶效应的方法
  • 优化gRNA设计:通过生物信息学工具和实验验证,选择特异性更高的gRNA序列。
  • 改进Cas蛋白:开发更高精度的Cas蛋白,如高保真Cas9(HiFi Cas9)或改进版的Cas12a。
  • 使用更精确的编辑技术:如引导编辑和碱基编辑,这些技术通常不会引入双链断裂,减少了脱靶效应的风险。
  • 组合使用:结合不同的编辑工具和策略,增加编辑的精确性和特异性。

ReAct prompting:
ReAct prompting

React: Synergizing reasoning and acting in language models

问题

ReAct提示并不是您平常的提示技术。它是一种复杂的方法,将推理和行动结合在一起,以创建更智能、上下文感知的提示。与仅仅提问问题的传统方法不同,ReAct更进一步。它理解上下文,推理出最佳行动方案,然后根据这个推理执行任务。

推理:系统理解问题的上下文以及需要做什么。
行动:然后,它执行特定的任务,如计算或数据检索,基于这个理解。

  • 通用人工智能大语言模型虽然在通用知识上表现良好,但是特定领域会有短板。通用人工智能在回答特定任务时,可能会产生"幻觉"(hallucinations)或自信不准确的回答。如设计导向RNA(gRNA)序列以靶向特定人体基因:EMX1或EGFR,LLM可能会咨询你回答,但是提供随机错误序列。
    • 但是可以通过连接NCBI的BLAST工具识别,可以将序列与人类基因组和转录组对齐。
    • 因此更新域专有知识。(域适应)
  • LLMs缺少实验设计的基本细节,如特定材料,脱靶效应的考虑,gRNA效率特应性。这种缺少会导致新手研究人员执行实验准备不足。
  • 可能生成大量无直接贡献的信息,造成混乱和干扰。

CRISPR-GPT概述

CRISPR-GPT以定制的LLM驱动的设计和规划代理为核心。该代理的引擎不仅借鉴了基因编辑领域领先从业者的专业知识,还整合了最近文献的广泛评审和一套计算工具包,包括导向RNA设计工具。

CRISPR-GPT代理的创新通过将复杂过程简化为一系列可管理的步骤,实现了基因编辑实验的自动化设计:

**CRISPR系统选择:**根据实验需求定制CRISPR系统的选择。
gRNA设计: 基于Broad研究所的黄金标准gRNA库和CRISPRPick工具包优化导向RNA序列,包括预设计的gRNA库。
传递方法选择: 建议将CRISPR组件引入目标细胞的最有效方法。
脱靶效应预测: 评估潜在的非预期改变以及预期的编辑效果。
实验方案推荐: 概述根据实验目标量身定制的逐步程序。
验证方法推荐和引物设计: 推荐验证编辑的最佳方法并帮助设计相关引物。

这种方法利用链式思维推理模型和状态机,确保即使是基因编辑领域的新手也能通过反复改进其实验设计,以实现符合其具体研究需求的方案。此外,CRISPR-GPT还提供:

  • 自由问答模式,用于精准解决临时查询,
  • 脱靶预测模式,用于对预设计gRNA进行深入分析。

Wet-lab validation(湿实验室验证) 是指在实验室中通过实际生物实验来验证和确认研究结果或理论假设的方法。湿实验室通常涉及使用化学试剂、生物样品和仪器设备进行各种生物实验。

Method

CRISPR-GPT代理由以下4个核心模块组成:LLM规划器、工具提供者、任务执行器和作为用户接口接收输入并传达输出的LLM代理。

  • 任务执行器:作为状态机运行,提供稳健的子目标分解和进度控制。
  • 工具提供者:将任务执行器与外部API和工具连接起来。
  • LLM规划器:根据用户的请求自动生成任务列表。
  • LLM代理:根据用户的元请求自动与任务执行器互动。

我们以状态机的形式为CRISPR-GPT实现了22个任务,总结如表1所示。状态机负责提供当前任务的充分指令,并通过多轮文本交互指导用户完成决策。通过这些状态机,我们手动将每个任务分解为任务执行器的子目标。具体来说,每个状态负责一个特定的子目标。转换逻辑是明确的,因此任务执行器可以根据当前进度正确地转换到另一个子目标。
在这里插入图片描述
我们预定义了4个元任务,以支持4个基因编辑相关实验的完整流程;见表1。此外,LLM规划器可以根据用户的元请求生成自定义的任务列表。相应任务的状态机串联在一起,作为一个更大的状态机来支持整个流程。

Tool Provider connects Task Executor with external APIs.

工具提供者 将任务执行器与外部API连接起来。
为了将语言模型与外部功能连接,系统需要:

  • 分析当前情况并判断是否适合调用外部工具;
  • 知道有哪些工具可用并从中选择最佳工具。

在CRISPR-GPT中,我们不是直接将API的接口暴露给LLMs,而是将API的使用包装在状态内,并通过手写的指令和响应暴露更用户友好和LLM友好的文本接口。简单来说,我们是在教用户(human agents & LLM agents)使用这些工具。这些工具包括Google网页搜索、运行程序(如Primer3),以及从外部导向RNA库、研究论文和实验方案中检索数据。

primer3:在这里插入图片描述

LLM-planner automatically generates a list of tasks based on the user’s request

LLM规划器根据用户的请求自动生成任务列表。
大型语言模型(LLMs)如GPT-4、Gemini和Claude可以作为LLM驱动代理的推理核心来解决现实世界的决策问题。我们采用了流行的ReAct提示技术,在这种技术中,LLM被提示输出思维链推理路径和合理行动集合中的最终行动。。为了让LLMs执行任务分解,我们提供了一张包含所有任务描述和依赖关系的表格作为提示。基于LLM的内部知识以及我们手动编写的任务描述和任务分解说明,LLM可以智能地分析用户的请求,并将用户的请求分解为一系列任务,尊重任务的依赖关系。分解后,相应的状态机链接在一起以完成所有任务。

在这里插入图片描述
任务分解过程和状态机实现算法。(左)任务分解;llm可以根据用户的请求、当前支持的任务和依赖关系的描述以及llm内部的知识自动执行任务分解。所选任务的状态机被链接在一起以满足用户的请求。(右)状态机与LLM Agent;状态机是Task Executor的核心,其中每个状态负责与用户进行一轮交互。首先向用户提供指令,其中包含当前决策制定步骤所需的足够信息和所需输入。在收到用户的响应后,它提供输出和反馈,其中api(例如程序执行/web搜索/数据库检索)可能在状态执行期间被调用。之后,状态机转移到下一个状态。LLM Agent代表用户对状态机的每一步生成响应。用户监视整个过程,并在生成的内容错误或覆盖LLM代理并手动与任务执行器交互时提供更正。

为了稳健性,我们不允许LLMs在自动执行期间动态添加/删除新任务。然而,我们认为这是迈向更智能的CRISPR-GPT版本的重要一步,并将其作为未来工作。

LLM-Agent automatically interacts with the Task Executor based on the user’s meta request

为了应对自动化CRISPR基因编辑任务的复杂挑战,我们通过序列决策的视角来概念化问题。这种视角将用户与自动化系统之间的交互框定为一系列步骤,每一步都需要精确的决策,以推进实验设计和执行的最终目标。我们系统的核心是LLM代理,它充当用户和状态机之间的中介。这种状态机来源于初始任务分解步骤,有效地将基因编辑过程分解为结构化的动作和决策序列。在此序列的每一步中,状态机向LLM代理呈现当前状态。此状态封装了当前任务的描述,并指定了向前推进所需的任何用户输入。

LLM代理的角色是解释当前状态并代表用户做出明智的决策。为了有效地做到这一点,代理可能会利用一组多样化的信息,包括:

  • 当前状态固有的指令,
  • 用户提出的具体请求,
  • 当前任务会话中的过去交互历史,
  • 集成到系统中的外部计算工具的结果。

这些信息被综合成一个提示供LLM代理使用,然后代理利用其能力确定最合适的下一个动作。这些提示的格式和结构旨在优化决策过程,详细内容见附录B。






用户监督是该系统的关键组成部分。虽然LLM代理自主运行,但用户不会被排除在过程之外。相反,他们被鼓励监控任务的进展并与代理互动。这种设置确保用户可以快速识别和纠正LLM代理的任何错误或误解,保持基因编辑实验设计的准确性和完整性。这种自动化方法强调人类专业知识和人工智能之间的协作共鸣。通过利用LLM代理处理和操作复杂信息的能力,我们促进了设计CRISPR基因编辑事故他把。实验的用户体验更高效、更友好。这种协作确保每个任务的细微差别和复杂性都通过人类洞察力和自动化精确度的结合得到解决,最终实现更有效和可靠的实验结果。

Human evaluation

为了评估CRISPR-GPT代理在辅助基因编辑和实验设计方面的有效性,我们召集了一个由12名CRISPR和基因编辑研究领域的专家组成的多样化小组。根据既定标准,每位专家对三种模式下的实验设计任务响应进行了评分,评分范围从1(差)到5(优秀)(所有人工评估的评分标准详见附录C)。为了提供比较视角,使用相似提示生成的ChatGPT 3.5和ChatGPT 4.0(模型版本gpt-4-0613)的输出也根据相同标准进行了评估。

在这里插入图片描述
在这里插入图片描述

Biological experiment and wet-lab validation

我们通过使用CRISPR-GPT和ChatGPTv4 API进行人类代理协作生物实验,作为我们方法的湿实验室现实世界验证。具体而言,我们让不熟悉基因编辑实验的独立科学家使用CRISPR-GPT来帮助他们在癌症研究项目中进行基因敲除(KO)实验。详细方法如下所示。

细胞系和细胞培养。A375细胞系在高葡萄糖DMEM,GlutaMAX(Gibco)中培养,补充10%胎牛血清(FBS,Gemini Bio)、100 U/ml青霉素和100ug/ml链霉素(Gibco),37℃,5% CO2条件下培养。

crRNA克隆。通过使用BbsI或Esp3I(NEB)通过Golden Gate组装方法将4种crRNAs(TGFBR1/SNAI1/BAX/BCL2L1)克隆到表达Cas12a的骨架中。使用U6测序引物:5’-GACTATCATATGCTTACCGT-3’进行Sanger测序验证构建体序列。

慢病毒包装和转导。通过使用PEI转染试剂(Sigma-Aldrich)将组装的慢病毒载体与VSV-G包膜和Delta-Vpr包装质粒共同转染入HEK-293T细胞来生产慢病毒。转染后48小时收集上清液。使用8µg/mL多聚溴化物,在1000*g下离心感染45分钟,以低MOI转导A375细胞。24小时后,用1µg/mL嘌呤霉素筛选细胞,以建立稳定表达的细胞系。

gDNA提取、PCR和测序。7天后,从筛选的细胞中使用QuickExtract(Lucigen)提取基因组DNA。然后使用含有Illumina测序适配器的引物,根据制造商的说明,用Phusion Flash High-Fidelity PCR Master Mix(ThermoFisher Scientific)扩增目标位点。在Illumina MiSeq平台上生成双端读数(150 bp)。

结果

CRISPR-GPT利用LLM的推理能力、领域知识、检索技术和外部工具,为基因编辑实验设计任务提供全面的解决方案。它支持多种基因编辑场景,包括单基因敲除、无双链断裂的碱基编辑、通过引导编辑进行插入/删除/替换、用于基因激活或抑制的表观遗传编辑(CRISPRa和CRISPRi)。

CRISPR-GPT通过三个模块帮助研究人员进行基因编辑实验设计

CRISPR-GPT代理通过三个不同的模块帮助研究人员设计基因编辑实验。“元模式”(Meta Mode)为用户,尤其是基因编辑领域的新手,提供专家定义的一般基因编辑场景的流程(称为元任务)。“自动模式”(Auto Mode)基于用户输入自动生成定制的必要设计任务列表,帮助各个经验水平的用户实现目标。“问答模式”(Q&A Mode)作为一个高级的GPT-4聊天机器人,在设计过程中解决用户的CRISPR和基因编辑相关查询(图4)。

图4:CRISPR-GPT用于基因编辑实验设计的交互模块概述。(A) CRISPR-GPT中三个模块的功能示意图,并附有其应用示例。(B) CRISPR-GPT web界面,注1-4为“Meta模式”,注5为“Auto模式”,注6为脱靶预测功能,“Q:提示将触发问答模式”。

Meta mode

“元模式”涉及利用四种类型的基于CRISPR的基因编辑系统(元任务)(表1)规划和实施22个独特的基因编辑实验设计任务。它利用预定义的流程帮助用户全面完成一个元任务。在此模式下,CRISPR-GPT代理引导用户完成设计基因编辑实验所需的每个任务。这包括选择适当的CRISPR系统、推荐传递方法、设计sgRNA、预测sgRNA的脱靶效率、选择实验方案和规划验证实验。

对于每个设计任务,CRISPR-GPT代理与用户交互,应用各种技术和外部工具以提供最佳解决方案。例如,在选择CRISPR系统时,CRISPR-GPT与用户持续互动,提供指导并收集信息,根据已发布的方案建议选项(参见图5一般任务1)。对于传递方法推荐等上下文敏感任务,CRISPR-GPT不仅建议常用方法,还通过网页搜索根据用户请求提供定制解决方案(参见图5一般任务2)。对于sgRNA/pegRNA设计,来自现有设计和出版物的多物种数据库使CRISPR-GPT能够根据用户信息快速建议预设计的sgRNA(参见图5一般任务3)。在sgRNA/pegRNA设计之后,用户可以通过CRISPR-GPT提供的详细说明和代码评估设计导向的潜在脱靶效应(参见图5一般任务4)。在完成设计任务后,CRISPR-GPT根据互动历史提供选定的方案,包括CRISPR系统选择和传递方法(参见图5一般任务5)。最后,对于验证任务,CRISPR-GPT利用外部API,如Primer3,协助用户设计用于验证实验的引物(参见图5一般任务6)。

Auto Mode

“自动模式”还促进了13个独特的基因编辑实验设计任务的规划和执行。与“元模式”不同,它不依赖预定义的元任务和流程,而是使用LLM规划器将用户的请求分解为一系列相关任务。例如,如果用户请求“设计用于敲除人类EGFR的sgRNA”,CRISPR-GPT代理从请求中识别关键词,并列出必要的设计任务,如“CRISPR/Cas系统选择”和“用于敲除的sgRNA设计”。此外,它使用初始请求中的信息(例如,目标基因“EGFR”和物种“人类”)自动填写相关字段并生成sgRNA设计,而无需用户重复输入。同时,CRISPR-GPT解释其选择背后的原理,使用户能够跟踪过程并在必要时进行修正。

Q&A mode

在“元模式”和“自动模式”的设计任务中,CRISPR-GPT代理通过“问答模式”提供有关CRISPR和基因编辑相关查询的即时响应或建议。例如,在选择CRISPR系统后,寻求更多关于所选系统信息的用户(如Cas12a)可以通过询问“Q:什么是Cas12a?”快速获得答案。CRISPR-GPT利用其知识库和从专家选择的数据库中检索的文档,迅速提供准确且相关的信息。

CRISPR-GPT outperforms general LLMs in gene-editing design tasks through human expert evaluations.

为了评估CRISPR-GPT代理的性能,我们邀请了12名CRISPR和基因编辑领域的专家设计任务集,以测试CRISPR-GPT在帮助研究人员进行实验设计方面的能力。结果从四个不同方面进行评估:准确性、推理、完整性和简洁性(附录C)。准确性反映CRISPR-GPT是否能提供当前CRISPR研究和方法的准确信息。推理评估CRISPR-GPT是否能提供有见地、支持充分的设计解释。完整性确保用户收到进行CRISPR实验设计所需的所有必要信息。最后,简洁性确保CRISPR-GPT为用户提供设计任务所需的直接相关信息,减少不必要的信息。所有评估者被要求根据这四个方面对所有三种模式的任务集从1(差)到5(优秀)进行评分。使用等效提示生成并评分了ChatGPT 3.5和ChatGPT 4.0的响应,与CRISPR-GPT的响应进行比较。

我们观察到,CRISPR-GPT在所有三种模式下的任务集设计中,相较于通用LLM代理取得了显著更高的准确性,因为我们在CRISPR和基因编辑领域中应用了广泛的领域知识,以确保CRISPR-GPT代理的稳健性(图6)。而通用LLM代理生成的响应(包括ChatGPT 3.5和ChatGPT 4.0)由于已知的问题(包括领域知识不足和幻觉)包含更多的小事实错误。同时,我们发现CRISPR-GPT和通用LLM代理在推理和完整性方面表现良好。

在这里插入图片描述
CRISPR-GPT特别擅长为其设计选择提供充分的解释,表明其对CRISPR领域有更深入的理解。在完整性评分方面,CRISPR-GPT也表现更好,因为它始终确保包含成功实验设计所需的所有必要信息。简洁性是CRISPR-GPT优于通用LLMs的另一个方面。尽管通用LLMs倾向于包含多余信息,CRISPR-GPT则专注于提供简洁且相关的信息,这对高效的实验规划至关重要。评估者欣赏CRISPR-GPT的简化信息传递,这促进了更清晰、更直接的实验设计过程。

总之,评估表明,CRISPR-GPT在基因编辑实验设计方面比通用LLMs提供了更优越的用户体验,具有更高的准确性、更好的推理能力、更完整的信息和更简洁的响应。这些发现强调了将领域特定知识和专门工具集成到LLMs中以增强其科学研究应用能力的重要性。

CRISPR-GPT demonstrates its efficacy through real-world application.

为了展示CRISPR-GPT在帮助研究人员设计基因编辑实验中的作用,我们通过与CRISPR-GPT的持续互动,在人类A375细胞系中进行了基因敲除实验(图7)。
在这里插入图片描述
在该实验中,我们的目标是分别在A375细胞系中敲除4个基因(TGFBR1、SNAI1、BAX、BCL2L1)。首先,我们选择了“元模式”从头设计基因敲除实验。按照CRISPR-GPT中选择CRISPR系统的指示,我们选择了AsCas12a,因为我们希望进行多位点编辑并降低潜在的脱靶编辑率。为了将CRISPR系统传递到A375细胞中,我们遵循CRISPR-GPT的推荐,使用慢病毒转导,确保Cas酶和sgRNA的稳定表达。

然后,基于这些信息,我们能够获得Cas12a质粒(之前拥有)。在设计sgRNA时,我们专门靶向人类TGFBR1、SNAI1、BAX和BCL2L1基因,充分意识到CRISPR-GPT提出的人类基因编辑的伦理影响。CRISPR-GPT从已发表的文库中提供了每个基因的4个sgRNA序列(如图7所示),因此我们能够订购这些序列进行合成。

随后,CRISPR-GPT提供了gRNA克隆的方案。然后提供了通过磷酸钙转染HEK293T细胞生产慢病毒的详细说明,使用必要的质粒和病毒包装成分。在此之后,我们严格按照CRISPR-GPT生成的方案进行转导过程,包括细胞培养程序、添加慢病毒以及使用多聚溴化物以促进高效转导。为了进行验证,我们选择了新一代测序(NGS)进行突变检测和CRISPR-GPT中敲除的验证,并根据CRISPR-GPT代理提供的方案进行指导。为了准备NGS,我们根据方案使用DNeasy血液和组织试剂盒从细胞中提取基因组DNA。在PCR引物设计的关键步骤中,我们向CRISPR-GPT提供了详细的序列信息,CRISPR-GPT自动返回了一组使用Primer3设计的引物,专门用于扩增目标位点。在实验的最后阶段,CRISPR-GPT建议我们将Illumina适配器连接到PCR产物上以构建文库,并强调使用NCBI BLAST检查引物特异性的必要性。这个最终验证步骤对于防止错误引物结合并确保测序结果准确反映预期的基因组编辑至关重要。

最后,我们分析了NGS的数据,观察到所有4个目标基因的一致高预期编辑结果。通过这一过程,CRISPR-GPT提供了:(1)CRISPR系统选择(2)导向RNA设计(3)传递系统推荐(4)质粒和病毒载体选择与克隆方案(5)组织培养、细胞转导程序(6)细胞收获和基因编辑效率量化方法(7)测序引物设计和读数验证方案。因此,我们的专业知识与CRISPR-GPT的计算指导之间的动态互动对于执行精确且符合伦理的基因编辑实验至关重要。

讨论

CRISPR-GPT代理展示了LLMs在自动化和增强复杂生物实验设计过程中的非凡潜力。通过将LLMs与领域知识、外部工具和模块化任务执行系统无缝集成,CRISPR-GPT使研究人员能够以前所未有的轻松和效率驾驭CRISPR基因编辑实验的复杂景观。CRISPR-GPT的多模态能力包括元任务流水线、交互式提示和按需问答支持。研究人员可以利用代理的专业知识来计划和执行基因编辑实验,从CRISPR系统选择和导向RNA设计到详细方案的自动起草和验证策略。这个简化的工作流程不仅加速了设计过程,还减少了错误和疏漏的风险,从而提高了研究结果的质量和可重复性。

失败例子

不正确信息

Prompt: Which specific base editing system I should use to broadly introduce mutations to human EGFR gene?
GPT4: If you are looking to induce a spectrum of mutations in the human EGFR gene to study the phenotypic implications of these mutations, utilizing multiple base editing systems would be beneficial. 1. Adenine Base Editors (ABEs): These can be used to induce A-G transitions in your target gene. ABEs are helpful as they induce minimal bystander mutations and indels compared to cytosine base editors (CBEs). 2. Cytosine Base Editors (CBEs): You can incorporate these when a C to T change (or G to A on the opposite strand) is desired in your target gene. Examples of CBEs include BE3, Target-AID, and BE4. 3. Prime Editing: If more diverse mutations beyond simple transitions are needed, or insertion/deletion mutations are needed, consider using prime editing. Although more complex, the versatility of prime editing allows it to create a wider range of mutations without inducing double-strand breaks or relying on homology-directed repair. To ensure that your mutations are broad, careful design of guide RNAs for each specific location of your target gene where mutations are required is necessary. These gRNAs should be specific to the location in the target gene where A-G or C-T substitutions are desired. However, take note that introducing broad mutations could also increase the possibility of off-target effects, hence it is crucial to have stringent control of your editing experiment, and thorough validation of the induced mutations by techniques such as Sanger sequencing or Next-Generation Sequencing (NGS). As always, bear in mind the ethical considerations and regulations applicable to your region, as well as potential biosafety issues, especially when working with oncogenes such as EGFR.
Note: The answer fails to mention the specific expanded-window/non-specific base editors. It provides irrelevant information on ABE, CBE and prime editing.

不完全信息

Prompt: How should I knock out human EGFR in my A549 cell line?
GPT4: Here are the general steps to knockout the human EGFR gene in A549 cells using the CRISPR-Cas9 system:1. gRNA Design: First, you have to design guide RNAs (gRNAs) that target the EGFR gene.There are many online tools available to assist you in designing gRNAs with high specificity and efficiency, like the CRISPOR and the Benchling tools. 2. Cloning: Clone the gRNAs into a plasmid that also expresses the Cas9 nuclease. This plasmid can either express the gRNA and Cas9 from separate promoters or express a single transcript that includes both the gRNA and Cas9 sequences. 2. Transfection: Deliver the plasmid containing the gRNA and Cas9 into the A549 cells. This can be achieved using a lipofection reagent such as Lipofectamine 3000, following the manufacturer’s instructions. 3. Verification: After allowing time for the CRISPR-Cas9 system to induce doublestrand breaks and errors in the DNA repair, which will result in insertions or deletions (indels) disrupting the EGFR gene, you have to verify the knockout. Genomic DNA PCR with subsequent Sanger sequencing or a mismatch detection assay like T7 endonuclease I or Surveyor nuclease can be used to confirm indels at the target site. 4. Functional Assays: This step involves verification of the knockout at the protein level. Western blotting or immunostaining against EGFR can be used to confirm reduced or absent protein level. Additionally, you may wish to determine the effects of the knockout on cell function, which might include effects on EGFR downstream signaling and cellular processes like proliferation and migration. 5. Validation: Validate the results using multiple clones and repeat the experiments to ensure the observed results are consistent and reproducible.
Note: It is very important to always include appropriate controls, such as untransfected cells or cells transfected with a non-targeting gRNA, in your experiments. Remember also to comply with your institutional or governmental regulations for working with CRISPR-Cas9 technology.
Note: The answer is incomplete in multiple ways. 1. It does not tell the users to first select the CRISPR system. 2. It does not provide users with necessary sgRNA sequences. 3. It does not provide the protocol for the users to do the cloning and transfection. In addition, it provides repetitive information on verification but not the details.

标签:Automated,基因,编辑,任务,Experiments,LLM,CRISPR,GPT,Editing
From: https://blog.csdn.net/saltfish920/article/details/139290229

相关文章