在如今这个IT时代,数据库已经得到了广泛的应用。不用说“数字就是金钱”的金融界,要靠牺牲大量鼠类(或者其他动物,甚至部分人类)才能来为人类救死扶伤的制药界,哪怕是一个灌水的BBS、或者本站这样的博客杂志系统,都极大的应用了数据库技术。科学界也不例外,尤其像生物,化学这样数据极多的实验学科,数据库更是随处可见。
最近的Nature有一篇评论文章,题目为“The Database Revolution“(数据库的革命),点评的就是数据库在生物学里可能要经历的变革。生物学里,有很多著名的用到数据库的地方,比如人类基因库,蛋白质库,还有现在正逐渐完善和热火的代谢组库。这些数据库都有些共同的特征。最重要的一点就是,任何个别的研究组都不能独立的承担和完成这些项目。所以,从项目的一开始,就是决定了分工合作,然后建立了相应的数据库的分享和贡献机制。它们引申出的另一个特征就是,这些数据库都对公众开放,可以使后续的研究者从中得益。
当然,也有些小型项目能由个别实验组就能完成,比如一些细菌的基因库。尽管只有少数人对这些数据库做了贡献,这些研究者们往往也把它们予以公开。只不过这些数据库由于并未从最起初就采取公用的标准,所以就给今后的维护、扩展带来了一定程度的困难。这数据库其实在积累了一定数据之后,也就像博物馆一样,需要馆长(curator),来维护旧数据,增添新数据,甚至大规模的整理。(注:Curator一般作为博物馆长解,但是现在已常见于数据库管理者职位的描述,往往还都是博士学位。) 所以上段提到的Nature评论文章,也就是在关注这些由个别实验组支撑起来的数据库项目,既要使它们能发展下去,又要使它们能免费的为大众所用。
说了些生物数据库的情况,尤其他们这种公布于大众的义举,就再来一提化学数据库这个闭门造车的、只求金钱、专利的现实主义者。若要对这两个作比较,最好的例子可能就是前两年的Pubmed vs. ACS事件。Pubmed数据库源于生物方向,由于不可避免的要和化学物质打交道,就也准备开始收集小分子化合物的资料,而且必须要求这些资料免费共享。于是,这自然就触怒了靠这个起家并赚钱糊口的利益集团--ACS手下的Chemical Abstracts Service。于是这两者就纷纷发起了一些活动,ACS还有一个强有力的论据:Pubmed怎么可以拿着纳税人的钱来和我们竞争。当然,这只是化学数据库的一个例子而已,还有各大化学公司手里掌握着的,连付钱都不一定让你见得的数据库。
这两种在生物界与化学界截然不同的情况,也就导致了生物信息学与化学信息学这两门学科不同的发展状况。比如大家可以看看bioinformatics和 cheminformatics这两者的招工情况(出自www.indeed.com),前者要远远大于后者。


Trackbacks & Pingbacks 1
[...] CAS的这一百年显然对化学界的发展作出了极大贡献,每一个学化学的人可能都会用到它。但同时不知道在不久的将来,这个百年数据库是否会如在“数据库在科学界”中所提到的“将数据库都对公众开放,可以使更多的后续研究者从中得益” ,如果那样的话,它一定会有一个更辉煌的百年。 « 排行影响智商? [...]
Post a Comment