华大生命科学研究院

方向介绍


生命的掌控要从生命的认知开始,只有从微观到宏观,从生到死的全方位全周期地解读生命,才能有效地书写掌控生命的新篇章。“工欲善其事,必先利其器”,掌握核心工具是创新科技的基础,也是掌控生命科技行业发展的最重要支点。华大率先提出了生命“读写存”工具贯穿发展的理念,将基因“读”与“写”的优势延展和贯穿,加上生命的“永存”,同时结合大科学和大民生的应用,使得中国成为全球该领域的引领者。

生命“读写存”工具研发是华大研究院的五大核心方向之一。该方向聚焦于生物分子(如核酸,蛋白等),细胞和组织器官水平的工具研发以及相关的应用。目前在DNA测序新技术,DNA合成技术,单细胞多组学测序技术,时空多组学测序技术,围绕相关工具的生信前沿算法开发等领域取得了一系列重要进展。

亮点成果


单细胞组学


单细胞测序是近十年来生命科学领域最重要的技术突破之一,该技术已经成为生命科学领域的底层技术,在发育、进化,人类疾病等领域全面应用,使得人们可以在单细胞分辨率研究生命的多组学图谱,理解生命起源和生老病死。

华大研究院过去在单细胞测序工具研发方向不断取得突破,目前在单细胞基因组/外显子组测序(Xu et al., Cell, 2012, Hou et al., Cell, 2012), 单细胞全长转录组 (Wu et al., GigaScience, 2015), 单细胞多组学(Liu et al., Nature Communications, 2019)等领域均处于世界领先地位。

当前单细胞测序技术在成本,通量等方向存在挑战,为了进一步实现单细胞组学全方位规模化应用,推动全球单细胞组学研究和临床应用。华大研究院自主研发了高通量的单细胞建库系统DNBelab C4, 该系统具有便携,低成本等方面具备显著优势,可以实现高通量单细胞转录组,表观组和多组学测序。目前该系统已经转化华大智造,于2019年10月正式对外发布。通过全球合作,该系统已经在发育,疾病,动植物演化,衰老,脑科学等领域实现全面应用。与此同时,结合华大自主研发的DNBSEQ高通量的测序系统以及自动化建库系统,华大目前在深圳,青岛,北京,欧洲等地已全面实现单细胞数据规模化生产。


代表性成果:

1.Zhu, L. et al. Single-cell sequencing of peripheral blood mononuclear cells reveals distinct immune response landscapes of COVID-19 and influenza patients. Immunity. S1074-7613(20)30316-2 (2020) 

2.Han, L. et al. Single-cell atlas of a non-human primate reveals new pathogenic mechanisms of COVID-19. bioRxiv. 022103 (2020) 

3.Liu, C. et al. A portable and cost-effective microfluidic system for massively parallel single-cell transcriptome profiling. bioRxiv. 818450 (2019) 

4.Liu L, Liu C, Quintero A, et al. Deconvolution of single-cell multi-omics layers reveals regulatory heterogeneity[J]. Nature Communications, 2019, 10(1): 1-10.

5.Wu L, et al., Full-length single-cell RNA-seq applied to a viral human cancer: applications to HPV expression and splicing analysis in HeLa S3 cells. GigaScience, 2015, Nov 5;4:51.

6.Xu X, et al., Single-Cell Exome Sequencing Reveals Single-Nucleotide Mutation Characteristics of a Kidney Tumor. Cell, 2012, 148(5), 886-895

7.Hou Y., et al., Single-Cell Exome Sequencing and Monoclonal Evolution of a JAK2-Negative Myeloproliferative Neoplasm. 2012, 148(5), 873-885


时空组学


细胞是生命的基本功能单位,不同类型细胞相互作用形成具有特定功能的器官。从分子层面系统解析组织结构是认识器官功能的重要前提。虽然目前已经有研究从单细胞转录组和表观组测序技术研究器官生成过程中的基因表达调控规律,因为缺少细胞的位置信息,上述技术无法从空间角度解析器官生成阶段基因表达的空间规律,也就无法真正精准解析胚胎发育过程中基因表达的空间差异对于器官生成的功能性调控。

时空组学技术在2020年被Nature Method杂志评为年度技术,因为其能在组织原位的基础上研究单细胞分辨率的基因组,转录组,表观组等多组学特征,为理解细胞命运调控的复杂性带来了重大突破,因此时空组学的重要性不言而喻。深圳华大生命科学研究院自主发展出高通量的单细胞分辨率或亚细胞水平分辨率的时空转录组技术Stereo-seq,利用DNA纳米球影印技术,即利用测序后的DNA纳米球芯片对组织内的核酸进行捕获和测序,可以获得生物分子的序列和空间信息,构建生命地图。该时空组学技术具有完全自主的知识产权,高分辨率,多应用场景。正因该技术可重新定义器官结构(器官3D数字化图谱),重新定义疾病(疾病分型诊断),重新认知发育(受精卵如何变成完成个体),重新认知生命起源(演化过程中的器官适应性)将对我们理解胚胎发育,组织器官形成,脑高级功能及复杂疾病发生背后的生物学规律,带来深刻的变革。


代表性成果:

1.Chen et al., Large field of view-spatially resolved transcriptomics at nanoscale resolution, BioRxiv, doi: https://doi.org/10.1101/2021.01.17.427004


长片段多组学


单倍体型信息在多个基因组研究领域中均有非常重要的应用。例如,在进行种群迁移路径和进化研究时,使用定相的单倍体型信息进行研究和分析,可以获得相对未定相的突变信息更精确的结果。而在临床诊疗领域,在器官移植手术前,获得HLA区域的单倍体型信息可以更好的预测受赠者与捐赠者的匹配情况;除此之外,在复杂杂合导致的单基因遗传病案例中,单倍体型定相信息对于关联基因型与表型具有非常重要的价值。甚至在一些极端案例中,只有在使用单倍体型信息进行定相之后,才查明导致疾病的基因和对应突变。


2012 年Complete Genomics的Peters等人在2012年发表了长片段读取技术(Long Fragment Read,LFR),使用多重链置换(MDA)方法在体外完成长片段DNA扩增,完成了全基因组单倍体型测序。为了进一步解决LFR技术受限于对微量自动化移液设备要求较高,相对难于部署在小型实验室中的问题,BGI的研发团队进一步提出了使用无分隔共标记的理念,即single tube long fragment read (stLFR)技术。利用DNA共标签技术,即通过将来源于同一长片段DNA分子的短片段加上相同的分子标签,可以实现高质量变异检测,二倍体定相,结构变异解析,基因组从头组装,全长转录组分析及其他长片段读取应用。作为原有LFR技术的升级,该方法的优点在于:1. 无需使用微量自动化移液设备,任何实验室均可开展。2. 无需进行MDA扩增,降低由扩增导致的畸偏,有助于提高基因组覆盖均一度。3. 无需微流控液滴生成装置和芯片,成本低廉。4. 能够进行单倍体型测序,并且可以以该方法为基础,实现二倍体基因组从头组装。该技术不仅能在当前合成测序平台上实现长片段测序,而且还在多组学测序中具有就要的应用潜力。

代表性文章:

Wang O. et al., Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing, haplotyping, and de novo assembly. Genome Res. 2019 May;29(5):798-808. doi: 10.1101/gr.245126.118. Epub 2019 Apr 2.


Zhang Z, Liu G, Chen Y, et al. Comparison of different sequencing strategies for assembling chromosome-level genomes of extremophiles with variable GC content[J]. Iscience, 2021, 24(3): 102219.


高通量DNA合成平台


基因组解读促使生命进入数字化时代,合成生物学则赋予人类探索生命本质并改造利用的工具,近年来极大推动在医疗、化工、农业及信息等领域交叉融合应用的发展。DNA合成是合成生物学的基础性技术,其重要性堪比测序技术对基因组学与精准医学的支撑。华大自主知识产权高通量合成仪实现自主研制并完成关键功能验证。该机器基于固相筛选技术,采用可识别载体及配套信号识别系统实现了寡核苷酸并行高通量合成(Massive in Parallel Synthesis, MPS),装备多项性能参数全球领先。已建成国内首个自动化、模块化DNA组装平台,具备千万级别碱基年合成通量,为DNA合成服务的产业孵化积累了引领行业标准的规模化、标准化生产平台搭建的丰富经验,已申请国内外专利31件,授权专利5件,软件著作权登记20项,起草并发布基因合成相关的国家、地方及企业标准共计5项。


 该项目获得9项国家、省、市科技项目支持,累计获批金额超2500万元.

新型基因编辑系统及应用


针对现有CRISPR系统存在的PAM的有限性、脱靶效应导致的安全性、稳定性等问题,以及核心专利仍然被欧美垄断的局面,华大研究院设计了高通量筛选平台和快速功能评估流程来高效地拓展不同类型的编辑系统,快速对成百上千的新系统进行功能性筛选,充实基因组编辑自主工具库,拟实现基因组的任何基因位点进行安全编辑。

    利用自主研发的基于华大DNB测序芯片的DocMF工具,仅用传统PAM鉴定方案1/10不到的时间完成新型CRISPR-Cas系统的PAM原件鉴定,一张可达十亿级别通量的芯片可同时检测出多个系统的PAM。此外,DocMF也能高通量、高深度地检测体外脱靶位点及其强弱,为新型基因编辑系统的安全性检测进行必要的技术补充。2020年7月,该技术在国际著名期刊Science Advances杂志在线发表。同时,项目组也针对研发人员对脱靶效率评估的需求设计了一键式的CRISPR-Cas介导的突变分析网站-Off-Detector。利用这些自主工具,华大已成功筛选到多个具有活性的编辑系统,其中有多个小Cas蛋白。新工具也大大拓展了PAM位点,丰富了华大自主基因编辑工具库,为基因治疗、育种等基因改造工程奠定坚实基础。



代表性成果:

Li et al., DNB-based on-chip motif finding: A high-throughput method to profile different types of protein-DNA interactions. Sci. Adv. 2020 Jul 31;6(31)


蛋白质工程平台


高性能、高质量的工具蛋白是测序技术、分子诊断及DNA合成与编辑等生物技术中的核心关键之一。蛋白质工程平台致力于基因工程、蛋白质工程、代谢工程技术领域的持续创新,以建设一流的蛋白工程研究技术和产品孵化平台为首要目标,主要从事蛋白结构分析与功能计算研究,数据挖掘辅助的新蛋白探索技术开发,基于人工智能的蛋白设计技术建立,蛋白定向进化平台技术的搭建和研究,测序技术相关蛋白产品研发,分子诊断技术、基因检测技术、基因合成技术类产品的研发平台建立。 

核酸化学平台


核酸化学平台聚焦于实现多组学测序相关原材料国产化,包括以下3大部分内容:

化学生产:建成的有机合成中试生产平台配备LC-MS, pre-HPLC,自动纯化系统、高真空旋转蒸发仪等设备。实现了华大自主测序平台配套的多种dNTPs试剂的全部国产化,目前的平台规模可以保障1000台以上测序仪的稳定供应。 

测序荧光染料:以最新荧光染料研究成果为基础,设计合成新型测序荧光染料。将新型测序荧光染料制备成测序试剂盒,利用测序上机结果指导荧光染料性能改进,最终实现新型荧光染料的研发、量产,配套生化试剂的量产以及知识产权积累。

纳米磁珠:磁珠(magnetic beads)是高通量测序过程的必备产品。通过磁颗粒可以有效地分离得到样本中的目的片段分离,可实现对核酸样本的高通量自动化操作,广泛应用于基因测序以及分子诊断领域。核酸化学平台正努力研发低密度,高顺磁的磁颗粒的制备,以对接下游stLFR,单细胞测序等多个应用。


超高分辨测序技术与平台


基因组学科研和临床应用均需要以测序仪为基本工具实现海量数据产出。目前,高通量测序技术日趋成熟,正往更精准、读长更长、通量更高和速度更快方向发展。

2015年,华大研究院研发团队完成了国内首款自主研发的国产化桌面型测序 BGISEQ-500,并获得国内首个桌面型基因测序诊断产品的医疗器械许可证。在“深圳市战略性新兴产业发展专项资金”的资助下,团队将BGISEQ-500测序仪成功的进行了产业转化。随即又陆续推出了MGISEQ-T7,DNBSEQ-T10等测序平台,满足不同科研与临床需求。

针对高通量测序目前视场与分辨率互相制约的瓶颈,为进一步降低测序成本,提升测序通量,华大研究院研发基于超分辨显微的新测序技术和方法,样品密度突破光学衍射极限2倍。结合具有自主知识产权的高密度芯片制备工艺与高保真重建算法,使其在测序准确性等性能指标方面与现有商用测序仪基本一致。目前正在投入开发工程样机,将该技术产品化,有望进一步大幅降低测序成本,将个人全基因组测序费用降至$100以下。


生信前沿工具算法


海量的测序数据的产生使得生物信息算法、工具和平台成为生命科学研究不可或缺的重要支撑。生物智能技术研究所围绕多组学新型测序技术、海量大数据人群分析等前沿生物大数据场景,开发了一些列的生信算法工具和平台系统,形成了完整的生物大数据解决方案。

在生信算法工具方面,团队围绕测序仪碱基识别,基因数据压缩,大人群和低深度变异检测,以及空间组学等新型场景开发了一系列的算法工具。这些软件都应用在实际的测序仪和及其产生的生信大数据应用中,诸如基因数据压缩工具,实现了最高20倍以上的压缩效率,并在深圳国家基因库得到采用。

在平台系统方面,团队先后开发了自动化计算系统,数据仓库系统,科研项目管理系统等,实现了科研数据的“存算管”一体化,支撑了大量生物大数据科研项目的开展,形成了数据驱动的生命大数据科研管理平台。


代表专利:


名称

时间

专利

一种基于荧光分子图像的相机参数标定方法

2018/1/13

一种荧光分子图像的清晰度评价方法

2018/1/29

一种基于线特征的高效高精度图像配准算法

2018/4/10

荧光图像配准方法、基因测序仪及系统、存储介质

2019/1/31

一种针对TDI图像的高效高精度GPU并行配准算法

2019/1/31

测序数据快速处理和压缩方法、系统及计算机可读介质

2019/10/25

一种FASTQ文件的并行压缩和解压方法及系统

2020/5/29

一种用于基因测序仪的超分辨图像重构算法

2020.07.24

一种FASTQ文件压缩中的碱基序列编码方法和系统

2020/9/24

一种基于深度学习的碱基识别算法

2021.03.01

生物序列标识符的压缩方法及装置、解压方法及装置

2021/6/17




软著

Zebracall offline

2015/9/23

Fastq格式转换软件

2017/9/26

IntViewer亮度文件浏览软件

2017/9/26

测序图像杂质检测软件

2018/4/28

ImageScorer图像质量评价软件

2018/2/25

WGS自动化流程软件

2018/8/21

基于MGISEQ2000系列测序仪的CPU Basecall软件

2018/8/17

基于BGISEQ50系列测序仪的Basecall软件

2018/8/17

FASTQ基因测序数据压缩软件[简称:SeqArc]V0.1

2019/12/20

基于colorGPU Basecall软件V1.0

2019.08.21

基于DNBSEQ T7测序仪的Basecall软件

2020.01.02

碱基事件可视化辅助分析软件v1.0

2020/9/30

Barcode拆分软件V1.1

2018/10/25

FASTQ生成软件V1.1

2018/11/29