保护基因组研究中的机密性
全基因组关联研究寻找特定遗传变异与疾病发病率之间的联系,是许多现代生物医学研究的基础。但基因组信息数据库会带来隐私风险。从人们的原始基因组数据中,可以推断出他们的姓氏,甚至可能是他们脸上的形状。许多人不愿意将他们的基因组数据贡献给生物医学研究项目,并且在决定是否授予研究人员访问请求之前,托管大型基因组数据库的组织可能会进行长达数月的审查。
在今天出现在Nature Biotechnology上的一篇论文中,来自麻省理工学院和斯坦福大学的研究人员提出了一个新的系统,用于保护那些将基因组数据贡献给大规模生物医学研究的人的隐私。早期的加密方法计算密集程度太高,以至于超过几千个基因组变得非常耗时,新系统承诺为多达一百万个基因组进行的研究提供有效的隐私保护。
“作为生物医学研究人员,我们对缺乏数据和访问控制的存储库感到沮丧,”麻省理工学院西蒙斯数学教授和该论文的相应作者Bonnie Berger说。“我们期待一个拥有大量分布式基因组数据的未来,私人拥有自己的个人基因组,研究所和医院都建立自己的私人基因组数据库。我们的工作提供了一个汇集大量数据的路线图。基因组数据,以促进科学进步。“
论文的第一作者是麻省理工学院电子工程和计算机科学研究生Hyunghoon Cho;他和伯杰加入了斯坦福大学计算机科学研究生David Wu。
系统的核心是一种称为秘密共享的技术,它在多个服务器之间划分敏感数据。例如,为了存储数字x,秘密共享系统可以将随机数r发送到一个服务器而将xr发送到另一个服务器。
两个服务器都不能独立地推断x。但总的来说,他们仍然可以执行有用的操作。如果一个服务器存储了一堆r并将它们加在一起,而另一个服务器将所有相应的(xr)加起来,那么共享结果并将它们加在一起将产生所有x的总和。但是,两个服务器都不会观察到任何一个x的值。
当然,如果两个服务器都被黑客攻击,攻击者可以重建所有的x。但只要一台服务器值得信赖,系统就是安全的。此外,该原则推广到多个服务器。如果数据在四个服务器之间分配,则攻击者必须渗透所有四个服务器;黑客攻击任何三个都不足以提取任何数据。
然而,在这种情况下,乘法比加法更复杂。乘以两个x需要生成三个随机数- 在密码学家唐纳德比弗之后,除了r之外,被称为Beaver三元组。反过来,这三个数字必须在使用秘密共享的服务器之间进行划分。在乘法之前将这些数字的秘密共享分量添加到x和r中会产生代数表达式,其中可以滤除所有添加的随机性,仅留下两个x的乘积。
全基因组关联研究涉及一个庞大的表格或矩阵,它将数据库中的基因组与单核苷酸多态性的SNP遗传变异位置进行对比。SNP通常约为一百万,因此如果数据库包含一百万个基因组,结果将是一百万个百万的矩阵。
寻找有用的疾病相关性需要过滤误导性相关性,这一过程称为人口分层校正。例如,东亚人经常乳糖不耐症,但他们也往往比北欧人短。对乳糖不耐受的遗传相关性进行的初步调查可能最终会确定那些高度不足的人。
群体分层校正通常依赖于称为主成分分析的算法,其需要涉及整个SNP对基因组矩阵的重复乘法。如果矩阵中的每个条目都需要为这些乘法中的每一个都使用其自己的一组Beaver三元组,那么分析一百万个基因组将非常耗时。
但Cho,Berger和Wu找到了一种构造乘法序列的方法,这样许多Beaver三元组只能计算一次并重复使用,从而大大降低了计算的复杂性。
他们还使用其他几种技术来加速他们的系统。由于Beaver三元组必须秘密共享,因此Beaver三元组中的每个数字都有一个相关的随机数:在双服务器方案中,一个服务器将获得随机数,另一个服务器将获得Beaver数减去随机数。
在Cho,Berger和Wu的系统中,有一个服务器致力于生成Beaver三元组并秘密共享它们。但是,虽然需要将海狸数量减去相关的随机数传输到适当的服务器,但它不需要自己传输随机数。相反,它只是共享用于“种子”称为伪随机数生成器的算法的数字。然后,接收方服务器可以自己生成随机数,从而节省了大量的通信带宽。
最后,当执行所有乘法运算时,系统实际上并没有使用整个百万分之一的矩阵。相反,它使用称为随机投影的近似技术来降低矩阵,同时保持最终计算结果的准确性。
基于这些技术,Cho,Berger和Wu的系统准确地再现了三个已发表的涉及23,000个个体基因组的全基因组关联研究。这些分析的结果表明该系统应该有效地扩展到一百万个基因组。
推荐内容
-
一种有前途的新工具来测量抗疟疾的抗体
可以使用需要非常少量血液的简单,准确和可重复的测定来测量针对多种恶性疟原虫蛋白(或抗原)的抗体。在最近发表的一系列文章中,由ISGlobal
-
12月4日河北石家庄鹿泉区工地疫情消息公布 今日通报:4名确诊
河北石家庄鹿泉区4名确诊人员均为外来务工人员。据消息显示,12月4日,石家庄市人民政府召开疫情防控新闻发布会,石家庄副市长张峰珍介绍,
-
CRISPR筛选识别帮助细胞抵抗西尼罗河寨卡病毒的基因
UT西南大学的研究人员今天报告首次使用CRISPR全基因组筛选鉴定一种有助于细胞抵抗黄病毒感染的基因。令人讨厌的一类病原体包括西尼罗河病毒
-
鱼的早期生活如何帮助决定其未来
一项新的研究表明,了解鱼类在成熟过程中的活动可以帮助科学家识别和管理鱼类在早期生活中依赖的脆弱栖息地。研究人员检查了红海鲷鱼的...
-
猕猴测试抗HBV药物和疫苗的新动物模型
每年有数百万人感染乙型肝炎病毒,结果导致50万人死亡。可引起肝癌的病毒(HBV)继续无视疫苗并抵抗目前的抗HBV治疗1,2。缺乏HBV感染的动物模
-
遗传学研究揭示了真菌性秘密揭示了念珠菌病
根据西班牙巴塞罗那基因组监管中心研究人员发表在Current Biology上的一项新研究,来自世界各地的真菌酵母菌感染(念珠菌病)的新遗传分析揭
-
通过恢复p53肿瘤抑制基因的表达可以逆转恶变前和恶性病变
恢复p53蛋白在癌前增生和恶性的p53缺陷型松果体病变,一个罕见的脑肿瘤的,可逆转的恶性状态,根据一项新的研究。基因p53通过几种机制起到
-
针对罕见疾病的新疗法对孤立的土着社区造成严重破坏
麦考瑞大学的研究人员开发出了神经退行性马查多 - 约瑟夫病的第一个斑马鱼模型 - 并且已经使用这个模型来测试可能用于治疗疾病的药物,
-
利用简单的聚合物工具的力量来检测土壤中的有毒化学物质
监测沉积物和土壤中有毒化学物质含量的大多数现有技术仅提供样本采集时污染物的快照,而无法追踪其长期影响。现在,一个国际研究团队在...
-
基因组测序显示数千年前适应高原的玉米
一个国际研究团队已经发现证据显示,几千年前玉米进化为在美国西南高地生存。在他们发表在科学杂志上的论文中,该小组概述了他们的基因...