搜索技术帮助研究人员在几分钟而不是几天内找到DNA序列
由于卡内基梅隆大学计算机科学家开发了一种新的搜索方法,现在可以在几分钟内完成数据库搜索DNA序列,这些DNA序列可以让生物学家和医学研究人员服用。由计算生物学副教授Carl Kingsford和博士研究生Brad Solomon开发的方法。计算生物学系的学生,旨在搜索所谓的“短读取” - 通过高通量测序技术生成的DNA和RNA序列。它依赖于一种新的索引数据结构,称为序列绽放树或SBT,研究人员在今天由Nature Biotechnology杂志在线发表的报告中描述了这种结构。
美国国立卫生研究院维护着一个名为Sequence Read Archive的庞大数据库,该数据库包含大约三个petabases,或总共三千万亿碱基对的序列。这些信息对于广泛的研究人员非常有用,从提出有关基本生物过程的问题到研究潜在癌症治疗的研究人员。
金斯福德说:“该数据库包含了无数尚未被发现的数据,并且被大量使用。” “它的主要问题是搜索非常困难。”
存储这些序列需要数千个硬盘驱动器。他指出,通过短读数(每个通常为50到200个碱基对)进行搜索,看看哪些可以组装形成大约10,000个碱基对的靶基因,这很麻烦,在某些情况下可能需要数天。
正如索引可以加快书籍或目录的搜索速度一样,Kingsford和Solomon开发的基于SBT的索引可以极大地加速对该生物信息学数据库的搜索。它们实际上将每个短读取表示为一组固定长度的子序列,采用称为布隆过滤器的数据结构,可以有效地将信息存储在一个小空间中,并可以测试一个元素是否是一个集合的一部分。
在第一级调查中,SBT可以判断数据库中是否包含目标DNA序列。如果是,则搜索进行到下一级别,其中SBT指示序列是在数据库的一半还是另一半中。在每个级别,查询以这样或那样的方式分支,直到识别出期望的实验。
Kingsford和Solomon使用2,652人血液,乳房和大脑实验数据库测试了他们的技术,每个实验通常包含超过10亿个碱基对的RNA序列。他们发现该数据库的大多数搜索都可以在平均20分钟内完成。他们估计使用现有技术(称为SRA-BLAST和STAR)的可比搜索时间分别需要2.2天和921天。
他们指出,可以进一步加速,因为可以同时执行超过200,000次查询。
推荐内容
-
10月27日德宏州瑞丽疫情最新数据公布 云南昨日新增本土无症状
温馨提示:一旦出现发热、干咳、乏力、鼻塞、流涕、咽痛、嗅觉味觉减退、结膜炎、肌痛和腹泻等症状,应及时按规范程序就诊,并主动告知1...
-
胃炎怎么办?如何防治萎缩性胃炎?
我们国家是胃癌的高发地区之一,且胃癌近些年已经成为了仅次于肺癌,死亡和病发率排名在第二的癌症。那么,慢性萎缩性胃炎会癌变?不良饮食
-
8月31日河北辛集疫情最新消息公布 昨日通报:河北辛集急寻
小编在这里提醒大家,疫情期间,严格落实就医制度。如出现发热、咳嗽、胸闷气促等症状,请佩戴口罩到定点医院发热门诊就诊,不要到普通...
-
DNA工具可以让你追溯你的古老血统
谢菲尔德大学的科学家研究古老的DNA创造了一种工具,使他们能够更准确地识别古欧亚种群,这些种群可用于测试个体与曾经漫游地球的古代人的
-
Belgica antarctica:Antarctic Midge拥有最小的昆虫基因组
根据俄亥俄州立大学David Denlinger教授领导的基因研究小组的研究,南极蚊(Belgica antarctica)迄今为止已经对最小的昆虫基因组进行了测
-
内脏利什曼病如何在巴西中南部传播
原生动物疾病内脏利什曼病(VL)最近扩展到以前没有报道过的地方,并且已扩大其在已经流行的国家内的地理分布。现在,研究PLOS被忽视的热带病
-
张玉环请求追责16名办案人员 目前已提交追责申请
【摘要】上个月张玉环冤案引起轰动,全国各地网友都在关注着这一案件。从被判死缓,到无罪释放,这个明明什么都没做却背了26年黑锅的老实人,终
-
在猿类中发现了“独特的人体”肌肉
曾经被认为是独特的人类的肌肉已经在几种猿类物种中被发现,挑战了关于人类软组织起源和进化的长期理论。该研究结果质疑人类中心观点,...
-
两步过程支持细胞分裂中关键蛋白的维持
科学家已经阐明了健康细胞分裂的一个关键方面,有助于更清晰地了解所涉及的复杂机制。对关键蛋白质(称为CENP-A)行为的详细分析揭示了两个互
-
较慢的速度狡猾的转身给猎物一个机会对抗猎豹和狮子
首先,给任何一只黑斑羚的纸条突然被一只猎豹冲了过来:不要——重复,不要——只要以四只蹄子能驮着你的速度快速地把它拉下来就行了。根...