自从2003年人类基因组的碱基测序完成以来,大家便热衷于争论究竟我们到底有多少个基因,虽然各方科学家对此议论纷纷莫衷一是,大概的数量级总算不约而同在两万上下浮动。
这就意味着如果我们体内的蛋白平均长度是300个氨基酸,那么相应的基因大约是1000个碱基对,考虑到有些部分在转录(transcripe)和翻译(translate)的过程中被切掉了,那么我们把之前的数字翻一倍,就算每个基因大约是两千个碱基对,那么我们大约应该有两千乘以两万,即四千万个碱基对是用来编码蛋白的(coding region)。这个数字看起来惊人,但是跟我们含有三十亿个碱基对的基因组相比起来简直微不足道。这意味着我们二十三对染色体里只有百分之一左右是实际有用的部分,剩下的百分之九十九都是非编码序列,用残忍的分子生物学家的话来说,就叫做“垃圾DNA” (Junk DNA)。
诚然,要把这四千万个有用的碱基对研究清楚就够全世界的生物学家基因学家分子生物学家化学生物学家忙活好一阵子的了。然而总有个别游手好闲的家伙,尤其是号称“生物信息学家”的一帮人,没事儿喜欢瞎琢磨--“那些垃圾DNA到底是干嘛的?为啥有那么多?”。当然,这个瞎琢磨是完全有道理的。要知道,要是把人类的所有碱基序列打印出来,足足要打两百本“曼哈顿黄页”(16开,1000页一本)。如果你让谁随身带着这么多黄页并且告诉他其中只有两本有用,任谁都会吹胡子瞪眼睛的问你凭啥为啥,遇上火气大的难保还会提拳头拎条凳。现在全世界背着两百多本黄页的人里只有几个揭竿而起想着问问“为啥”,已经算是难得的斯文天下了。
当然,大家都知道科学家是不能吹胡子拎板凳问问为啥就能混饭吃的,生物信息学家也一样,问完了就得自己吭哧吭哧找答案。美国劳伦斯伯克利国家实验室(LBNL)的爱德华·鲁宾(Edward Rubin)就是一个这样吃饱了撑的的生物信息学家,发动他们组的人在垃圾堆里扒拉了半天,发现很多所谓的“垃圾DNA”在不同的哺乳动物里都有相似的序列。一般在不同但接近的物种中发现相似的DNA序列,可能的解释有两种,一是这段序列由于有某种重要的作用而得以保存,另一种就可能是物种分化的时间不够长,还没有积累足够多的基因变异事件。显然由于某种原因他们更愿意相信前一种可能,接下去他们又在这些相似的DNA当中发现有大约百分之一在人类的基因序列里发生了显著的变化。一个可能的推论自然就是这些变化有功于我们脱离了其他哺乳动物兄弟姐妹而成为人类。这显然是一个会备受争议但振奋人心的发现,更令人振奋的是这些特别的“垃圾DNA”序列的地理位置很接近已知的、与脑细胞有关的基因--难道是这些所谓的“垃圾DNA”,影响甚至决定了我们大脑的发育?鲁宾实验室的发现虽然揭示了这一可能性,但考虑到生物信息学手段自身的局限性,实在不是很有说服力。巧合的是另外三个从事相近研究的科学家也得到了相似的结论(当然,也是生物信息学家),虽然样本数量比较少而且难保他们没有互相串通或者互相影响,但这无论如何都是个值得深入研究的课题,尤其是当生物信息学家辛辛苦苦的进行圈地运动找出最可能有用的“垃圾DNA”之后,分子生物学家和基因学家便可以闪亮登场大显身手,用实验结果给出更为明确的答复。
当然,在一百九十几本黄页里东翻西翻并非易事,而且一不小心就会落入“false-positive/negative“的陷阱。究竟我们为啥要每人多背着这么多本黄页恐怕再过一百年也不一定能有定论,然而初步研究得到的结论实在令人兴奋和惊讶,也很有可能打开生物学和遗传学宝库的另一间宝库。不过我觉得对于我们这些青年科学工作者来说,也许最重要的教益还是在于“不要轻易把尚未了解的东西划为垃圾”,以及“定期打翻垃圾桶”。
本文主要资料采自 nature news,2006年11月8日号
Comments 3
如果能“吹胡子拎板凳问问为啥就能混饭吃”,那该多好呀。
不要那么看不起bioinformatics/bioinformatists,如果有机会,我也可想当其中一员呀~
还有来搅一会儿场,那就是两百本黄页只要一本也就够了
再瞎搅和一次,那就是只有把潜在有用的东西给扔到了垃圾桶里去,后来人才有动力去翻垃圾桶把好东西找回来呀 , hehe
Posted 13 Nov 2006 at 1:29 am ¶这个是有用的东西, hoho
Posted 13 Nov 2006 at 11:20 pm ¶to aries,黄页可以有上下册啊,所以还是要两本。又及,再抬杠我扣你工资!
Posted 13 Nov 2006 at 11:24 pm ¶to goer,谢谢谢谢,还请多来捧场
Trackbacks & Pingbacks 1
[...] 除了上述这个赌场问题,其实隐马尔可夫模型(HMM)更十分广泛使用于语音识别,因为电脑或机器直接接受的是音频音调,然后来猜测实际要表达的词汇。它也广泛应用于生物信息学(bioinformatics),比较著名的例子就是探测DNA序列中的CG岛的存在。众所周知,A、T、C、G四个碱基交替出现组成DNA链,尽管只有四个组员,C和G却一般不常碰头,据说两个碰在一起了,比较容易被甲基化,把基因的遗传信息给弄坏了可是件大事,所以两者也就拘束着。但在一些地方,可能由于某些保护机制,这两者在一起的概率要远远大于其他区域,这些CG可以自由碰面的地区也就被称为CG岛。这些CG岛也就被猜测为对DNA遗传信息的控制有着一定的作用,所以被scorp称为游手好闲的家伙们就会来计算一下,究竟基因的那些区域属于CG岛。同样他们用的也是HMM的原理。 [...]
Post a Comment