中外你的自己的他的基因,英政坛投入4500万美元

近日,英国宣布政府将投入4500万英镑支持位于剑桥的生物信息数据库,为药物发现、癌症遗传学、再生医学和农作物疾病预防等提供支撑。

试想一下,在一个平台上就能实现全球基因组数据的搜索和访问,是不是可以帮助研究人员轻松解决数据查找问题,从而提升基因组学研究的整体速度。

大量的蛋白质和核酸数据的积累与理性地分析这些数据中所蕴涵的生物学意义的双重需要,产生了综合生物学研究与计算技术研究等领域最新成果的交叉性学科“生物信息学”。概述蛋白质与核酸测序技术应用以来,已积累了极大量数据。同时,基于典型西方哲学演绎与解析的分析思路而建立的组合化学数据库已经成为合理分子设计(ra-tional molecular esign)的重要支柱,为创造全新的非自然产物提供了可能。所以,将新颖的计算技术与方法应用于经验和理论生物学研究的时代已经到来,生物信息学由此诞生。但生物数据的海量性和复杂性又都是组合化学等其他数据密集型科学所不及的,这也是生物信息学所面临的更大挑战。一般意义上,生物信息学研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,它通过综合数学、计算机科学与工程和生物学的工具与技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。它作为一个交叉学科领域而荟萃了数学、统计学、计算机科学和分子生物学的科学家,目标就是要发展和利用先进的计算技术解决生物学难题。 这里所说的计算技术至少包括机器学习(machine learning)、模式识别(pattern recognition)、知识重现(knowledge representation)、数据库、组合学(combinatorics)、随机模型(stochastic modeling)、字符串和图形算法、语言学方法、机器人学(robotics)、局限条件下的最适推演(constraint satisfaction)和并行计算等。而生物学方面的研究对象覆盖了分子结构、基因组学、分子序列分析、进化和种系发生、代谢途径、调节网络等诸多方面。许多研究与发展组织都预测:基因组学研究将会彻底革新未来鉴定生物学产物和选择更佳目标用于小分子生物功能筛选的过程。 随着基因组研究规模扩大,生物信息学将原始序列数据转换为有意义的生物学信息的重要性也随之增长。生物信息学各个分支都亟待改进和提高的3个方面是:更加有效地处理大规模的数据、建立通用的智能型工具、使所有的操作程序自动化。生物信息数据库目前,国际性合作的几个基因组计划已经积累了超大量的生物信息并以不同组织形式构成许多数据库。其中一些属于商业数据库需要预先注册和付费才能检索,而更多数据库是公开和免费的并可通过互联网络(Internet)访问。 随着研究深入,公共数据库越来越成为世界各地生物学家的重要给养。美国国家实验室(Brookhaven National Lab-oratory, BNL)的蛋白质数据库(Protein data bank, PDB)可同时提供蛋白质序列及其三维空间晶体学原子坐标。超文本版本的细胞系数据库(Hypertext ver-sion of the cell line data base, HyperCLDB)专门提供欧洲各家实验室和捐献站的人和动物细胞系的信息,已有3100种以上的品系。OWL混合蛋白质序列数据库(Composite protein sequences databas-es)是一非重复蛋白质序列数据库。欧洲分子生物学实验室(European Molecular Biology Laboratory, EM-BL)的TREMBL是对Swiss-Prot蛋白质序列数据库的增补,含有EMBL核酸序列数据库中尚未出现于Swiss-Prot的所有编码区(CDS)的翻译序列,可以看作是Swiss-Prot 的前言部分,今后都可能升级到标准Swiss-Prot 中。与生物催化和生物降解相关的数据库站点UM-BBD,即Minnesota大学生物催化和生物降解数据库(University of minnesota biocataly-sis/biodegradation database),提供关于微生物酶与代谢通路的信息;Eco-Cyc,即大肠杆菌基因和代谢百科全书(Encyclo-pedia of Escherichia coli Genes and Metabolism),是一个汇集了所有已知的关于大肠杆菌基因和中间代谢的数据的大型知识库;GenoBase Selkov EMP,是GenoBase数据库通道(GenoBase Database Gateway)中一个经过索引的、关于酶与代谢通路(Enzymes and Metabolic Pathways)的数据;KEGG,日本的基因和基因组京都百科全书(Kyoto Encyclopedia of Genes and Genomes),内容包括代谢通路图谱、分子编目表、基因编目表、基因组图谱等数据;Swiss-Prot,是带有注释的、具有最小冗余的、与其他数据库的整合度很高的蛋白质序列数据库; WIT (What is there),是一个基于最近的关于细菌全基因组序列的足够了解、在WWW上设计实现的交互式代谢重构模型。基因组导航者(Genome navigator)是提供到达含有关于人类基因组、鼠基因组和酵母基因组等的物理图谱和遗传图谱信息的主要数据库的视化的交互式通道。它使用基于Java小控件(applet)的通用性程序DerBrowser来显示和导引这些生物的多种不同类型的基因组图谱。IUBio档案是一个生物数据和软件的档案库,囊括了各种各样的大众化的浏览、检索和传输软件、分子数据、生物学新闻和文件,其互联网地址是iubio.bio.in-diana.edu (magpie 129.79.225.200) 。生物计算就目前的数学和计算机科学的能力而言,对数据容量达到上十亿字节的数据库进行生物计算仍然是一项很艰巨的任务。理论上有希望的、通过量子化学算法预测蛋白质的空间折叠的方法靠现有的计算能力尚无法成为现实, 因此需要数学与纯计算机效能上的新突破。大分子设计和模建算法让曾经致力于分子力学和分子模型构建的应用数学家、物理学家、化学家和生物学家走到了一起。现在的重点和挑战在于如何获得高增益、高效率、高可信度的蛋白质、核酸和多聚体的模拟算法。分子图形和模型学是生物信息学和药物设计的重要部分。先是可在本地的个人机或工作站上运行的生物计算软件和程序,下一部分侧重于通过互联网络的在线计算。日常数据维护,为生命科学研究人员实现全方位计算能力的软件工具Prophet 5.0,提供适合于数据管理和视化、包括从简单描述性的统计处理到多元方差分析(Multi-factor ANOVA),logistic回归和非线性模型分析等多种统计分析。序列对齐,基于“近似字符串匹配(Approxi-mate string matching)”算法的Cleanup 1.8能够确定从核苷酸序列数据库中指定的任何一对序列间的整体同源性,并自动从冗余数据库中生成一组纯化的无冗余的核苷酸序列集萃。

位于剑桥的欧洲生物信息研究所(EMBL European Bioinformatics Institute,EMBL-EBI)是全球重要的生物信息数据库,是英国最重要的生物信息基础设施,每天有来自全球科学家近4000万条的访问需求,在推动基因组学和分子生物学前沿研究方面发挥关键作用。此4500万英镑投资将增加该中心的计算、存储和共享能力。

英国剑桥的Repositive就是这样一个免费的在线平台。Repositive集结了来自全球各地的基因数据资源,用户通过这个平台就可以实现数据资源的搜索和访问。

(作者为军事医学科学院放射医学研究所研究人员 本文由傅萱整理,未经本人审阅)

EMBL-EBI有英国重要的生物信息数据库:

图片 1

——Human Cell Atlas,人类细胞图谱,是世界上第一个映射人体每个细胞的数据平台。科学家通过此平台能够确定哪些与疾病相关的基因在我们的身体的哪个部位活跃。

这样一个操作简单且轻松的平台,可以帮助研究人员更有效的寻找到可靠的数据信息,不仅能够帮助研究人员节省下大量数据挖掘的时间,还能帮助把这些数据的价值发挥到最大。

——UK Bio-Bank,英国生物银行,收集了英国50多万名志愿者的健康数据,旨在为疾病预防和治疗提供基础生物信息。

Repositive创始人兼CEO Fiona Nielsen毕业于南丹麦大学,曾是illumina的生物信息科学家,她认为精准医学的成功与否,实际上取决于数据信息的价值。因此,她认为Repositive所做的信息挖掘工作,将有可能改变基因组学研究的现状。

此笔资金来自英国研究与创新署(UKRI)的战略重点基金(Strategic Priorities Fund)。该基金支持政府的高质量研发优先事项。英国政府承诺到2027年将研发资金提高到GDP的2.4%。

挑战:数据访问是主要瓶颈

UKRI首席执行官表示:我们处理大数据的能力对于21世纪的科学发现至关重要,特别是在基因组学和分子生物学领域中正在推动的健康和生命科学方面。这笔资金将使EMBL-EBI继续保持其在大型生物数据库和生物信息学领域的全球领导地位。

在生物制药领域,无论是大型企业还是小公司,通过基因组学数据去评估药物风险和药物开发价值是必不可少的一步。这一步,基因组学数据是基础,这需要寻找到大量的基因组学数据集进行统计。如何获得及时且有效的数据资源,对这些公司来说非常重要。

背景信息:

然而,对基因组学数据研究人员来说,这些数据的查找和访问令人头疼的问题。全球领域开展了基因组学研究不计其数,一方面积累了丰富的数据资源,但另一方面,这些丰富的资源也给信息的查找带来了挑战:这些资源要如何访问?找到访问入口后要如何从海量的信息中查找到自己想要的信息?

英国是EMBL(欧洲分子生物学实验室)的创始成员之一,EMBL是一个非盈利的政府间组织,成立于1974年,其经费来自26个成员国(包括欧洲和以色列的大部分国家)和两个准成员国(阿根廷、澳大利亚)。

无疑,在这样的模式下,信息查找是非常繁琐、费时的工作。

EMBL-EBI是EMBL的6个站点之一,是生物信息库的全球领导者,支持多项大规模科学计划,例如:英国生物银行(UK BioBank)从50万名志愿者那里收集基因组和健康数据;人类细胞图谱(Human Cell Atlas)将绘制人体中的每一个细胞;地球生物基因库(Earth BioGenome)旨在表征地球上所有真核生物多样性的基因组。

Nielsen从事过一些学术和商业研究工作,这种糟糕的经历她有过不少次。做了几年研究工作后她发现,基因组学临床解读的瓶颈其实并不在分析算法和设备上,而是缺少一个真正准确可靠的数据资源和查找方案。

UKRI的战略重点基金(Strategic Priorities Fund),旨在推动高质量的多学科和跨学科研究与创新的发展,确保UKRI的资助与政府确定的研究重点有效关联,并确保研发系统能及时响应战略重点和机遇。

图片 2

Repositive创始人兼CEOFiona Nielsen

2013年12月,Nielsen做了个决定,她从illumina辞职,成立了慈善机构DNAdigest。Repositive就是DNAdigest的一个产品,希望通过帮助科研人员轻松实现基因组学数据的查找和访问,以加速基因组学研究。

“我不是一个成功的科研人员。”Nielsen承认,“但我想我能做点其他的,让有能力的科研人员做的更好。”

解决方法:数据资源整合

很多人想知道,在这样一个数据资源整合平台建立之前,科研机构是如何实现资源访问的呢?现实中的科研工作并非像电影里那么炫酷,更多的是日复一日的试验,记录,重复。数据查找和访问更是份枯燥且繁琐的苦差。

事实上,目前各家数据资源的标准都不一样。而要使用这些数据,首先要做的就是资源整合,把各家标准统一,工作量非常大。其次,全球范围类的数据集合那么多,要挨个去查找是极其麻烦的。如果要把所有的数据库都扒一遍,即便是HGNC、OMIM以及Uniprot这些明星科研机构的科学家们,恐怕也得皱一皱眉。

这就造成了两个现象:一是数据查找和访问花费了研究人员大量的时间和精力;二是即使信息无处不在,但许多信息其实是被闲置的。

Repositive则可以一劳永逸的解决这些问题。通过Repositive,用户可获得多个知名的基因数据库的访问权限,这其中包括全球知名的数据库,比如1000人基因组计划和基因表达图谱(Genome Expression Atlas);还有爱沙尼亚生物中心、GenomeAsia100K这些鲜为人知的数据源;甚至还包括了InSilico DB 和 Xpressomics这样的企业数据。

目前,Repositive平台上已经集结了全球范围内超过100万个数据集,数据量每个月都在扩大。Nielsen透露,他们的目标不仅仅是公共的数据资源,同时还要把世界各地的大型数据库,科研机构、公司以及公益项目的数据也吸收进来。

据了解,Repositive已经与阿斯利康、默克以及未因生物等制药巨头和生物公司达成合作,将共同建立一个支持肿瘤研究的协同数据库。该项合作的目的是为从PDX模型到特定环境的肿瘤研究,提供数据发现和访问的入口。

图片 3

(PDX模型:The Patient derived xenograft,是一个功能强大的癌症研究模型,被广泛应用于药物发现和临床药物研究)

通过这样一个数据平台,受益最大的就是精准医学领域。精准医学根据个人的遗传背景来寻找适合的治疗方法,对疾病基因层面的认识是基础。要从基因层面认识疾病,没有强大且可靠的基因组数据资源,是无法实现的。

除了惠及各地的基因组学研究人员,Repositive也将为数据提供方带来福利。通过Repositive,他们可以扩大自己数据资源的影响力,同时还能获得更多的资源,推进科研研究。

在保证患者和数据捐赠者权益的前提下,Repositive希望向更多的研究人员提供数据访问解决方案,以此将这些信息的价值最大化。

下一步,Repositive还希望像研究人员提供更多具有人口多样性特点的数据,以保证研究结果的准确性和全面性。截止到2016年,Repositive已累计获得融资1200万美元。

本文由凤凰彩票平台发布于凤凰彩票下载app送28-教育资讯,转载请注明出处:中外你的自己的他的基因,英政坛投入4500万美元

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。