本网讯 4月5日,国际权威期刊《自然.通讯》(Nature Communications)在线发表了中南大学计算学院王建新教授团队和美国克莱姆森大学罗峰教授、中山大学中山眼科中心肖传乐副研究员合作的最新研究成果“基于长读数的二倍体从头组装(De novo diploid genome assembly using long noisy reads)”。该论文提出了基于第三代测序数据的二倍体组装新方法,并开发了相应的软件PECAT。ag捕鱼官网 (中国)官方网站聂藩、倪鹏为论文共同第一作者,ag捕鱼官网 (中国)官方网站王建新教授为论文共同通讯作者,中南大学为第一署名单位。本研究受国家重点研发计划、国家自然科学基金、湘江实验室揭榜挂帅项目等多个项目支持。
第三代测序技术(牛津纳米孔测序和PacBio单分子实时测序)的迅速发展产生了更长和更准确的读数,给基因组组装研究带来了新的机遇和挑战。对于二倍体组装来说,第三代读数依然含有较高的测序错误,组装算法很难将测序错误与单倍型差异信息区分,从而生成单倍型混合的组装结果,其含有大量的单倍型切换错误, 并且丢失了很大一部分遗传信息。
针对这一局限,王建新教授团队等在近日发表于 Nature Communications 的研究论文中,通过深入分析第三代长读数携带测序错误与单倍型差异特性的区别,提出了保留单倍型差异信息的长读数纠错算法,避免单倍型差异信息被当成测序错误被移除,保证了单倍型差异信息的一致性,其纠错读数的单倍型一致性可达到99.4%。在此基础上设计了基于局部单倍型聚类的二倍体组装算法,在第一轮组装中实现单倍型混合的组装结果。在第二轮组装中,将读数比对到混合组装结果上,识别读数携带的单核苷酸多态性(SNP)信息,通过局部聚类方式识别单倍型不一致的重叠关系,过滤不一致的重叠关系再次组装实现单倍型组装结果。在多个测试数据上,论文所提出方法PECAT获得了更连续的单倍型组装结果。其中,在纳米孔R9的公牛数据上,PECAT实现了单倍型几乎解决的组装结果。而在人类HG002样本纳米孔R10数据上,PECAT实现了单倍型连续性指标(phase block NG50)为59.4/58.0Mb 的组装结果。
PECAT组装算法框架图
一审:于涛 二审:邓皓迪 三审:李殷