乳腺癌是一种异质性疾病,可分为6种不同的类型,分别为luminal A、luminal B、HER2-enriched、basal-like、normal breast和 claudin-low。乳腺癌起源于乳腺上皮,在人和小鼠中形成由2个主要细胞区室组成的导管上皮网络,一层内腔细胞和一层基底/肌上皮细胞。
本研究通过从分离的乳腺上皮细胞(MECs)中利用单细胞转录组学(scRNA-seq)和染色质可接近性(scATAC-seq)分析来阐明介导小鼠乳腺上皮细胞特性的分子基础。scRNA-seq/ ATAC-seq分析识别腔内乳腺上皮细胞室内先前未知的细胞状态,并揭示与细胞特性和从腔内祖细胞分化为成熟相关细胞的新型顺式和反式调节元件。
本文为正常体内平衡小鼠乳腺上皮系统内的细胞异质性提供了新见解,并将作为了解MEC系统在早期肿瘤发生和肿瘤进展过程中如何变化的宝贵资源。
研究思路
scATAC-seq实验流程:
图1
scRNA-seq流程:
图2
一、主要内容
1.scATAC-seq揭示小鼠乳腺上皮中先前未知的细胞状态
通过流式细胞术纯化基底和管腔MEC后进行scATAC-seq(共23338个细胞),使用Cell Ranger软件(10X Genomics)处理测数据后,再使用Seurat对所有peak进行无偏差聚类,显示4个主要clusters(0-3)的MEC(图3B);利用标记基因鉴定细胞类型为基底细胞(cluster 0;由Krt14标记),L-Sec(cluster 2-3;由Kit标记)和L HR(cluster1;由FoxA1标记)(图3C)。
在L-Sec细胞类型中观察到2个先前未知的cluster:Tm4sf1标记的调节PI3K途径编码参与乳腺癌转移的四跨膜分子的cluter 2;和显示编码Wnt信号调节因子R-Spondin 1的基因Rspo1标记的cluster 3。另外,cluster 3也显示基底标记基因Krt14的中度可接近性(图3C),表明具有分化成基底和管腔谱系的双能祖细胞状态,或具有直接源自基底乳腺干细胞的短暂腔内祖细胞类型。
基于基因活性分析,在基底细胞中发现特异性开放的Wnt10a(图3D),在基因启动子区域周围观察到基底和管腔MEC之间的主要差异,Wnt10a的末端区域无差异;另外,管腔限制基因Cldn3在所有3个腔细胞簇中显示出接近基因启动子的高可接近性的一个主要peak(图3E)。scATAC-seq分析定义了2个先前未知的细胞状态,其特征在于分泌性腔上皮细胞类型(L-Sec)内的差异染色质可接近性特征(例如Rspo1)。
图3 scATAC-seq分析
2、scRNA-seq分析揭示MEC细胞类型和状态内不同的基因表达特征
对来自背景匹配的小鼠FACS分离的MEC进行scRNA-seq(共26859个细胞),使用Seurat聚类检测到3个主要的上皮细胞簇,对应于基底(Krt14 +)、分泌腔(L-Sec; Kit / Elf5 +)和管腔激素反应细胞(L-HR; Prlr +);
在MEC的L-Sec cluster中检测到2种不同的细胞状态,在先前scRNA-seq研究中都作为一个同质簇出现。特异性标记基因表达显示这些cluster中表达与产奶相关的几个基因,而cluater 2表达与上皮祖细胞能力相关的高水平基因(Aldh1a3、Rspo1)。因此,将这些子簇命名为“L-sec Progenitor”和“L-sec Mature”(图4B-C)。这些发现证实了scATAC-seq预测的L-sec细胞类型中存在两种不同的状态,并且允许将这些结果整合为腔内祖细胞和成熟分泌腔细胞。
图4 scRNA-seq 分析
3.scRNA-seq和acATAC-seq整合揭示新型细胞类型特异性转录调节因子和顺式调节元件
● 整合scRNA-seq和scATA-Cseq数据获得关于染色质可接近性与乳腺上皮细胞类型中基因表达之间的联系。
● 整合的数据集显示每种主要细胞类型内的一致性,且概括了L-Sec细胞类型内的祖细胞和成熟细胞簇(图5A);
● 乳腺细胞类型的几个已知标志基因(如Krt5、Krt8、Kit、Foxa1)显示染色质可接近性与每种细胞类型中的基因表达之间的强相关性(图5B);
● 祖细胞中的Rspo1和成熟L-Sec细胞中的Lalba显示染色质可接近性与基因表达的显著一致性(图5C)。
为了确定有助于细胞类型区分的顺式调控元件,使用Cicero分析共同可接近性。比较L-Sec成熟细胞和L-Sec祖细胞,发现Folr1基因座附近的增强子特异性连接特异于L-Sec成熟群体(图5D),基因表达和染色质可接近性揭示L-Sec成熟中Folr1的特异性信号(图5E)。这表明染色体7上的这个增强子区域代表了在分化成成熟分泌腔内MEC期间变得活跃的关键调节元件。
利用ChromVar来分析scATAC-seq每种细胞类型的TF基序的可接近性,MEC系统中的TFmotif分析揭示3个主要模块:
● 模块1主要含与显示应激反应相关的Jun和Fosrelated TF基序;
● 模块2含许多与基底上皮生物学相关的TF(如Tp63),还观察到与调节管腔细胞命运决定有关的Gata3 TF 基序;
● 模块3主要含与腔上皮生物学相关的TF(Foxa1和Elf5)基序。
为了定义新建立的L-Sec成熟和祖细胞状态之间的差异,比较这些cluster差异TF基序可接近性,其产生许多Wnt信号相关的TF,这与该簇中经典Wnt信号传导Rspo1的增强子的表达增加一致(图6)。
图5 scATAC-seq与scRNA-seq整合分析
图6 TF Motif分析
结论
⊙ 整合单细胞转录组学和染色质可接近性分析揭示了对MEC系统的腔内上皮区室内先前未知的细胞类型层次结构,并定义了调节乳腺上皮细胞特性的新型转录和表观遗传基础;
⊙ 特别在分泌型腔细胞(L-Sec)中定义了不同的成熟状态,其可以分为祖细胞(Rspo1、Aldh1a3)和成熟分泌细胞(Lalba、Csn2);
⊙ 通过整合转录组学和染色质可接近性数据集,将基序可接近性与阳性下游靶基因表达相结合推定的关键转录因子;
⊙ 还鉴定了新的增强子区域,其与基因可接近性和与分泌性腔成熟(Folr1)相关的效应基因的表达系统地相关,以及与基底、肌上皮细胞身份(Cnn2)相关。