一、CRISPR 系统的发现-从细菌的获得性免疫说起

CRISPR 系统实际是细菌的一种获得性免疫系统。细菌被 phage 侵染之后,可以获得 phage 的 DNA 片段整合进基因组形成记忆,当再次遭到入侵时,从对 phage 形成免疫。

1)早在 1987 年,日本人在大肠杆菌中发现有串联间隔重复序列。但一直不清楚功能。后来的研究发现,这种重复序列广泛存在于细菌和古细菌中。2002 年才正式命名为 CRISPR(Clustered regulatory interspaced short palindromic repeats).

2)随着测序技术和生物信息学的发展,2005 年,三个研究组同时发现间隔序列(图中红色箭头所示)和侵染细菌的病毒或 phage 高度同源。从而推测,这一系统可能是类似于 siRNA 一样,是细菌抵抗 Phage 的一种机理。

(这些和植物的 siRNA, 高等动物的获得性免疫一样,都是获取入侵病毒的一个片段形成记忆,从而再次遭到入侵时可以对抗入侵的一种方式)

这中间还有很多故事(mark 先,待补充,还有 adaptation 的过程的发现),比如,

1)Phage 上和 CRISPR 重复序列同源的序列突变后,Phage 又可以重新可以侵染细菌。这显示在这一系统的工作过程中存在着一个序列配对机制。

2)有些 Cas 蛋白突变后,细菌还可以获得入侵的 DNA 片段整合进基因组,但不能降解外源的 DNA 片段。这证明 Cas 系统中有的蛋白负责获取并整合外源 DNA 片段,而另一些酶负责在再次入侵时降解外源 DNA。

3)在 Cas9 功能不清楚时,其实就发现这个基因上的某些点突变可以导致整个系统不 work。等 Cas9 的核酸酶的身份揭晓时,再回去看以前的数据,一切都豁然开朗了。这些突变恰恰就是 Cas9 核酸酶的活性位点。

二、谜团逐渐解开-从嗜热链球菌说起

2007 年 Science 上又发表了一篇文章,作者是 DANISCO 公司的科学家,讲的是关于 Streptococcus Thermophilus(嗜热链球菌),这个菌大家可能不熟悉,但他们的产品大家可能天天吃。这是工业上生产酸奶的菌种。工业生产中常遇到的问题就是这些乳酸菌会被 Phage 侵染,因此这些食品生产企业需要开发各种抗 Phage 的策略和分离抗 phage 的菌株,研究也发现抗 Phage 的菌株和敏感的菌株在 CRIPSR 的这些位点有差别,前面也讲到其他研究组发现 CRISPR 中间的重复序列和 Phage 的序列高度同源。于是,他们就想看一看通过增加和敲除 CRISPR 位点中间的重复序列是不是可以调节乳酸菌对 Phage 的敏感性。果然,实验结果正如他们所料。

随着研究的进一步深入,大家逐渐地意识到,细菌抵抗外界入侵的流程大致如上图所示,Cas 位点编码多个核酸酶和解旋酶,他们把入侵的 DNA 切割,整合到 CRISPR 的重复序列中,形成记忆。当再次遭到入侵时,转录出 RNA,Cas 蛋白复合物利用这些和入侵的 DNA 同源的 RNA 去切割摧毁外源的 DNA。

三、Type I and Type III CRISPR 系统

随后对不同的菌的基因组测序及其他研究工作的积累,也使得 CRIPSR 的机理逐渐清晰。越来越多的不同菌中的 CRISPR 系统被发现,随后研究者们根据他们降解外源的遗传物质的方法,将他们分为了三类。如图中的 Type I and Type III. 这两套系统由于参与的蛋白众多,需要几个复合物共同作用才能发挥作用,使得它不宜操作和改造。但其他几个系统的发现的过程也是非常值得一讲的,都是非常漂亮的工作。(mark 先,待补充)

四、窗户纸就快捅破了-Cas9

很多同学知道 Cas9, 并不知道还有 Cas1,Cas2,Cas etc 还有很多蛋白。

2012 年突破终于来了,Jennifer A. Doudna(mark for 八卦,最年轻的女院士,女神 etc)和 Emmanuelle Charpentier 的这篇 Science 发现了一个比较简单的 CRISPR(TypeII)系统的机理。这一系统就简单多了,一个巨大的 160KD 的蛋白 Cas9 利用 RNA, 就可以完成识别和切割靶向的 DNA。他们发现了

1)Type II CRISPR 系统中的 Cas9 是个核酸酶,这个核酸酶结合两个 RNA(crRNA, tracrRNA) 就可以切割双链 DNA.

2)同时,他们进一步阐明了 RNA 和目标 DNA 配对的原则,同时将 crRNA-tracrRNA 连接成了 chimera RNA,这样只需要 Cas9 蛋白和一条定制的 RNA 就可以编辑性的 DNA。

3)同时他们进一步分析了 Cas9 作为核酸酶的活性位点:连个核酸酶活性分别切割靶 DNA 的两条链。

所有这些工作为现在的风生水起的 CRISPR/Cas9 的应用奠定了最根本的基础。到这里,大家都知道这个新的基因编辑系统即将呼之欲出了。

五、真核系统的应用

几乎同时,三个研究组发表三篇论文,两篇在《科学》杂志,一篇在《Elife》上报告了他们在哺乳动物细胞的应用。这就是拼人力、物力和效率来了(所以,可以跟科技部的领导说说,国内要发展绿色通道,开发自己的试剂,留住自己的人才,假设我们同时开始做这个课题,国外文章发了,我们还在等抗体)。核心思想早就在那里了,主要改进大家都一样,

1)优化密码子,让 Cas9 蛋白可以在哺乳动物系统中很好的表达。

2)加了核定位序列 (NLS),这样可以把 Cas9 送到细胞核内进行基因组编辑。

3)当然,同时需要表达一个 guide RNA,把 Cas9 定位到靶 DNA 处。

用这个技术,就可以很方便高效廉价地在细胞上做基因编辑:包括敲除、修改、插入。

六、进一步用 Nickase 增加编辑特异性

因为 Cas9 介导的靶向主要依赖于 guide RNA 和目标 DNA20 左右的碱基的配对,大家开始重视脱靶效应(off-target)。一系列的研究表明,这种方法的脱靶效应是广泛存在的。这很好理解,因为 RNA-DNA 的配对不是那么完美的。很快,MIT 的张峰在 Cell 上发表了 Double Nick 的方法(当然同时也有很多人做,后面陆续也有不少组都有文章)。文章的原理很简单,其实早在 2012 那篇奠定基础的《科学》文章里就已经埋下了种子。Cas9 会在目标 DNA 上切两刀,如果把其中一个核酸酶活性位点突变掉,它就变成了一个切口酶。用两对这样的 sgRNA 把这种切口酶带到基因组上的特异位点,这样就大大提高了靶向的特异性。