中国基因网您的位置:首页 >行业资讯 >

评估基因组组织研究重现性的新统计方法

一种新的统计方法来评估Hi-C数据的可重复性 - 一种用于研究基因组如何在细胞内部三维工作的尖端工具 - 将有助于确保这些“大数据”研究中的数据是可靠的。“Hi-C捕获了基因组不同区域之间的物理相互作用,”宾夕法尼亚州立大学统计学助理教授,该论文的第一作者李群华说。“这些相互作用在决定肌细胞是什么使肌肉细胞而不是神经或癌细胞中发挥作用。然而,评估数据再现性的标准措施通常无法判断两个样本是来自相同的细胞类型还是来自完全不相关的细胞类型这使得很难判断数据是否可重复。我们开发了一种新方法来准确评估Hi-C数据的可重复性,这将使研究人员能够更自信地从数据中解释生物学。

评估基因组组织研究重现性的新统计方法

由宾夕法尼亚州立大学和华盛顿大学的一组研究人员开发的名为HiCRep的新方法是第一个解释Hi-C数据的独特特征 - 基因组区域之间相互作用的相互作用更多可能偶然发生,因此在不相关的样本之间产生虚假或错误的相似性。描述这种新方法的论文发表在Genome Research期刊上。

“由于全基因组研究中产生的大量数据,确保数据质量至关重要,”李说。“利用Hi-C等高通量技术,我们能够深入了解基因组如何在细胞内部发挥作用,但前提是数据是可靠且可重复的。”

在细胞核内有大量的染色体形式的遗传物质 - 由DNA和蛋白质组成的极长分子。含有基因和控制基因使用时间和位置的调控DNA序列的染色体被组织并包装成称为染色质的结构。例如,细胞的命运,无论是肌肉还是神经细胞,至少部分取决于染色质结构的哪些部分可以被表达的基因,哪些部分是封闭的,以及这些区域如何相互作用。HiC通过将基因组的相互作用区域锁定在一起,分离它们,然后对它们进行测序以找出它们来自基因组的位置来识别这些相互作用。

“这有点像一大碗意大利面条,其中面条触摸的每个地方都可能是生物学上重要的互动,”李说。“Hi-C发现所有这些相互作用,但绝大多数发生在基因组区域之间,这些区域在染色体上彼此非常接近,并且没有特定的生物学功能。其结果是信号强度这很大程度上取决于相互作用区域之间的距离。这使得常用的重现性测量(例如相关系数)极难区分Hi-C数据,因为即使在非常不同的细胞类型之间,这种模式看起来也非常相似。我们的新方法将Hi-C的这一特性考虑在内,使我们可以可靠地区分不同的细胞类型。“

“这为我们提供了一个经常被忽视的基本统计课程,”李说。“很多时候,相关性被视为许多科学学科中可重复性的代表,但它们实际上并不是一回事。相关性是关于两个对象的相关程度。两个不相关的对象通过与公共因子相关而具有高度相关性这就是这种情况。距离是Hi-C数据中隐藏的共同因素,它驱动相关性,使得相关性无法反映感兴趣的信息。具有讽刺意味的是,这种现象被称为统计学中的混杂效应,在每个基础统计学课程中都会讨论,即使在训练有素的科学家中,看到它在实践中被忽视的频率仍然非常惊人。“

研究人员设计了HiCRep以系统地解释Hi-C数据的这种与距离相关的特征。为了实现这一目标,研究人员首先对数据进行平滑处理,以便更清楚地了解数据趋势。然后,他们开发了一种新的相似性度量,通过基于两个区域之间的距离对相互作用进行分层,能够更容易地区分不同细胞类型的数据。“这就像研究药物治疗对年龄不同的人群的影响一样。按年龄分层有助于我们专注于药物效应。对于我们的情况,按距离分层有助于我们关注样本之间的真实关系。”

为了测试他们的方法,研究团队使用HiCRep和两种传统方法评估了来自几种不同细胞类型的Hi-C数据。在传统方法被基于附近相互作用过量的虚假相关性绊倒的情况下,HiCRep能够可靠地区分细胞类型。此外,HiCRep可以量化细胞类型之间的差异量,并准确地重建哪些细胞彼此更密切相关。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容