
摘要
作为生物信息学的基础研究方法之一,DNA基序发现对于研究基因表达调控机制和生物功能位点的发现具有重要意义。然而,由于DNA数据的高度敏感性,这些数据在motif发现过程中的隐私泄露已经成为基因研究领域的瓶颈。同时,传统的隐私保护数据挖掘方法不能直接处理DNA序列,现有的私有基序发现方法通常会降低结果的效用。为了解决这些问题,我们提出了一种基于 ϵ 差分隐私的高效模体发现算法,该算法被称为在存在任意外部信息的情况下具有有意义的隐私保证的严格隐私定义。我们的解决方案利用封闭频繁模式集来减少结果集的冗余模体并获得准确的模体结果,满足 ϵ 差分隐私。此外,基于最佳线性无偏估计的后处理方法用于优化嘈杂合并模体支持的效用。对真实 DNA 序列数据集的实验证实,我们的算法在实用性方面优于现有算法。
总结
在本文中,我们将闭合频繁模式引入 DNA 模体发现中,并提出了一种满足 ϵ-差分隐私模型的隐私闭合频繁模体发现算法(即 DP-CFMF)。 在 DP-CFMF 中,利用基于扩展树的封闭频繁模体发现技术和基于最佳线性无偏估计的一致约束后处理来提高结果的实用性。 此外,还设计了一系列真实 DNA 数据集的实验,这表明我们的算法在准确性方面优于现有方法。 在前一节中,我们观察到我们的算法在不同的 ϵ、lU、N 和尺度下通常比其他算法更好。 这些参数的选择会影响不同数据集中的结果,因此我们接下来的工作将集中在设计一种自适应选择参数值的方法。
论文官方网址请点击下方链接: