大豆是重要的粮食经济作物,为人类提供了主要的油料和蛋白资源。大豆起源于中国,古称“菽”,约在5000年前左右由其野生种驯化而来,随后广泛传播于世界各地。大豆在引种和改良过程中产生了遗传瓶颈效应,使得来自不同主产区的大豆品种间具有显著的遗传变异。目前,我们广泛采用的大豆参考基因组来源于一个美国品种Williams 82(Glycine_max_v2.0)。该单一品种的基因组并不能完全代表所有大豆的遗传变异,特别是和美国地理距离遥远具有明显遗传变异的亚洲品种。另外,在功能研究中发现该基因组存在多处组装错误,影响了功能基因的定位挖掘。
2018年7月27日,中国科学院遗传与发育生物学研究所联合中国科学技术大学、江苏省农业科学院种质资源与生物技术研究所和北京贝瑞和康生物技术有限公司在Science China Life Science (《中国科学:生命科学》英文版)在线发表题为“De novo assembly of a Chinese soybean genome”的研究论文,报道了国审大豆品种“中黄13”的高质量基因组信息(Gmax_ZH13)及其注释信息。
结合单分子实时测序(SMRT)、单分子光学图谱(optical mapping)和高通量染色体构象捕获技术(Hi-C),该研究团队对Zhonghuang 13品种的基因组进行从头组装,最终得到1.025 Gb的基因组序列,包含20条染色体和1条叶绿体。该基因组contigN50为3.46 Mb,scaffold N50 为51.87 Mb,是目前基因组连续性最好的植物基因组之一。进一步分析表明,Gmax_ZH13和Williams 82基因组之间存在着大量的遗传变异(图1),包括1,404个易位事件、161个倒位事件、1,233个倒位易位事件,以及在Gmax_ZH13中出现的505,506个小插入/缺失(1-99 bp)和17,409个大插入/缺失(>=100 bp)。
图1 Gmax_ZH13和Glycine_max_v2.0的基因组比较分析
此外,该团队整合大量转录组数据为Gmax_ZH13基因注释基因构建了一个完整的基因共表达网络。通过已报道控制大豆开花时间的基因与新定位的QTL或GWAS区间内候选基因的共表达关系,对新定位区间内控制该性状的基因进行更精确地筛选,得到26个可能控制大豆开花时间的基因,并利用自然群体遗传变异和表型差异的关联对其中部分基因进行了验证(图2),这为重要农艺性状基因的挖掘提供了新的思路。Gmax_ZH13基因组的发表为大豆基础研究提供了非常重要的资源,为国产优异大豆品种的培育奠定了坚实的基础。
图2 利用基因共表达网络精确筛选与大豆开花时间相关的GWAS/QTL区间中的候选基因
中国科学院遗传与发育生物学研究所田志喜研究员课题组的申妍婷博士为该论文的第一作者,田志喜研究员为论文通讯作者,中国科学技术大学马世嵩教授和江苏省农业科学院种质资源与生物技术研究所杜建厂研究员为共同通讯作者。该研究得到国家自然科学基金、中国科学院A类战略性先导科技专项和植物细胞与染色体工程国家重点实验室项目的资助。