实际上,“基因荒漠”这个说法有点过时。最近的研究发现,人类基因组 90%的区域都能转录出 RNA[1],只不过因为其中只有不到 3%的区域最终能够翻译成蛋白质,因此给研究者留下了“基因荒漠”的印象。
当然,这些 RNA 并不是没有功能,也不是全像楼上泠姐所说短命到还没接触到核糖体就被降解。一部分非编码 RNA 以 tRNA、rRNA 的形式发挥作用,参与蛋白质的翻译过程。此外,更多的非编码 RNA 可以以多种多样的方式参与到基因表达调控、细胞结构组装等过程中(如下图)。
- 在酿酒酵母的SER3基因上游,可以转录出一个名叫SGR1 RNA 的非编码 RNA,这个非编码 RNA 在丝氨酸合成通路的调控中发挥作用。当酵母处于营养丰富的环境中时,SGR1 RNA 转录加强,通过干扰转录因子与SER3启动子的结合,抑制SER3的表达,关闭丝氨酸合成通路。[2]
- 在爪蟾卵母细胞中存在一种由细胞角蛋白组成的网络。这种网络的组装依靠两组 RNA——Xlsirts ncRNA 和VegT mRNA——它们整合到细胞骨架内,维持整体的稳定。[3]
- XIST lncRNA 在哺乳动物细胞中介导 X 染色质的沉默,而在Xist基因区附近,还能产生一个反义转录物调控 XIST 的水平。[4]
- 近年来,人们在癌症患者体内发现了一种转录水平异常增高的非编码 RNA,即HOTAIR RNA。这种 RNA作为蛋白质组装支架,负责招募蛋白亚基进行 PRC2 复合体的组装,后者在基因组的表观遗传学修饰中发挥作用[5]。在正常的细胞里,HOTAIR也会表达,但表达量受多种因素的调控;癌细胞里表达失控的HOTAIR会导致癌细胞呈现出胚胎细胞样的表观遗传格局,组织浸润性上升,癌转移风险增加。[6]
- 生物信息学研究已经揭示出数千种 lncRNA 与人类疾病的关系,这些非编码 RNA 的转录水平若出现异常,可能引起人体内的稳态失衡,引起疾病。[7]
时至今日,人类基因组中这 90%能够转录出 RNA 的区域的功能仍未完全了解清楚。但已发表的研究向我们展现出一个复杂而精巧的调控网络,在这个网络里,染色质 DNA、非编码 RNA、蛋白质相互作用,共同发挥着重要的功能。
当然,我们也不排除有一些 RNA 确实是无功能的,甚至是有害的,但并不能以此认为人类基因组是个“垃圾山”。保持对未知事物的敬畏之心,是自然科学工作者最基本的素养。
至于免疫球蛋白多样性的问题,那属于另一个我不擅长的学科,因此不做太多展开。就我已经了解到的知识,免疫球蛋白的编码基因确实是一个非常大的家族,在人类基因组中分布很广泛,而 B 细胞在成熟过程中发生的体细胞超突变(somatic hypermutation)是增加免疫球蛋白多样性的另一个原因。在这个过程里有没有涉及到非编码 RNA,这不在我的知识体系中。