GASTROENTEROLOGY | IF: 33+ 病理切片蛋白质组学助力识别异时晚期结直肠瘤变发展的预测性风险特征
结直肠癌(CRC)是全球第三大常见的癌症类型,也是第二大常见的癌症死亡原因。大多数CRC需要经历持续数年的腺瘤到癌的梯度发展(adenoma-to-carcinoma sequence,ACS),主要表现为结肠腺瘤性息肉或腺瘤的前病变,加之驱动基因突变的积累。虽然腺瘤在成年人群中很常见,大约20-40%的50岁以上的人会出现腺瘤,但只有少数病变(3-5%)最终成为癌症。而目前通过内镜检查发现的早期病变,被切除后的患者往往需要接受长期重复监测,但事实上其进展为侵袭性癌症的风险很小,因此造成严重的过度治疗,随着国家筛查计划的实施,给医疗系统带来了巨大负担。因此,根据早期病变对腺瘤建立合理的分子分型体系至关重要。
2023年3月24日,丹麦哥本哈根大学José Manuel Afonso Moreira团队在GASTROENTEROLOGY在线发表了题为“Proteomic profiling of colorectal adenomas identifies a predictive risk signature for development of metachronous advanced colorectal neoplasia”的研究论文。该团队对随访长达10年的98个病人早期切除腺瘤样本进行蛋白质组学定量分析和机器学习,发现了一种特定的蛋白质组学特征,可以有效预判未来发生高级别腺瘤或结直肠癌。实施这种分类可以减轻进展风险较低的腺瘤患者的监测负担,同时为高危患者提供有针对性的监测计划和预防干预。
影响因子:33.883
组学技术:蛋白质组学
实验样本:98个腺瘤样本的石蜡切片
【组学实验设计】
【结构和拷贝数变异无法区分两组不同结局的早期腺瘤】
为了排除G1组样本有与结肠早期致癌相关的分子改变的可能性,作者对7例G0腺瘤和25例G1腺瘤进行15-30X的测序,去探究是否关联特定的结构和拷贝数变异。总体而言,作者没有发现两组在结构变异或拷贝数变异方面有显着差异(图1)。两组样本的突变负荷(Mutational burden,MB)没有显着差异(图1A),G0显示的中位MB略高于G1(图1A)。每组中最常见的10个突变基因是相同的(ZNF717,MUC3A,MUC6,MUC16,MUC4,ANKRD36C,CDC27,CTBP2,OR4C5和HLA-DRB1)(图1B),尽管两组之间存在显著不同突变状态的基因(图1C),但作者认为这些基因不太可能反映两个样本组之间在恶性潜力上的差异。
【利用蛋白质组学构建了能够区分不同结局的蛋白质组学特征】
使用降维图评估以下协变量:样本组(G0 vs G1)、患者年龄(30-89)、性别(男性、女性)、样本收集年份(2002-2012)、腺瘤定位(结肠、直肠、远端、近端)和异时晚期肿瘤类型(腺癌、高级腺瘤)。只有患者类型组(G0、G1)显示出明显的UMAP降维聚类模式(图2A)。
通过limma分析,G0和G1组间共识别460个显著差异富集(differentially abundant, DA)蛋白。在弹性网络(elastic-net model, EN)回归模型准确度为0.9且置信区间为[0.69-0.97]的条件下,共包含101种蛋白质。这两种条件的交集蛋白共53个。腺瘤样本的分层聚类显示,这53个小集合足以将样本实现分组(图2B)。
通过WGCNA(weighted co-expression network analysis),发现腺瘤样本组(异时肿瘤、非异时肿瘤)与多个共丰度模块(9/17)显著相关。相比之下,没有其他协变量显示出与模块显著相关,这与UMAP降维聚类可视化结果一致(图2C)。利用堆叠条形图显示蛋白来源比例(图2D),其中与样本组具有最显著负相关的forestGreen模块包含最大比例的癌症相关差异蛋白(来自DA集合),同时这个模块也是九个模块中最小的模块之一。
【在蛋白质组共表达模块分析中,与囊泡运输以及免疫炎症相关的蛋白质过度表达】
每个模块都显示了一个复杂的网络,通过STRING数据库检索了编码蛋白间可能的潜在相互作用,并构建了蛋白质相互作用网络表示出来(图3)。四个最大的模块是灰红色(dustyRed)、橄榄绿色(oliveGreen)、薰衣草紫色(lavenderPurple)和金棕色(goldenBrown)。灰红色(dustyRed)模块(图3A,左侧放大)由两个子集群组成。左下方的较大子集群COPZ1是蛋白交互中心。薰衣草紫色(lavenderPurple)模块的两个大子集呈现相似的模式,蛋白整合素α1(ITGA1)是模块中最中心的蛋白。相反,橄榄绿色(oliveGreen)模块更同质,没有子集。
利用KEGG进行分析,灰红色(dustyRed)模块中,两个最重要的基因本体富集条目与高尔基体之间囊泡运输有关(图3B;红色模块);在天蓝色(skyBlue)模块中,参与急性炎症反应以及凝血调节的通路被富集(图3B;蓝色模块)。
【潜在蛋白及其应用潜能】
为了更好地验证蛋白质组特征的可信度,作者利用公共数据库其他腺瘤蛋白质组进行验证。在测试的54种蛋白质中,有28种得到了至少一项额外数据的验证(表1),其中满足ROC曲线下面积(AUC)≥ 0.75(cut-off criteria)的蛋白有12种。
图4对其中10种潜在蛋白的表达丰度及预测准确率进行展示。利用箱线图,反映10种潜在蛋白在文章数据(图4A)以及验证数据集(图4B)中的表达丰度。在异时晚期肿瘤组和非异时晚期瘤组比较中,ITGA1显示明显的丰度差异(图4A)。而在图4B中,除了正常样本、腺瘤样本和癌症样本的分组外,腺瘤样本根据CRC相关的染色体变异数目,将数目>2的定义为高风险(High Risk)腺瘤。在验证集中,三种蛋白质显示出腺瘤特异性丰度,这与正常和癌症样本中的丰度不同(图4B)。其中C1QBP和POF1B在腺瘤中的含量高于正常和癌症样本,而最后一种(ITGA1)在腺癌中的含量低于正常和癌症样本。
而通过组合潜在蛋白组合进行预测,评分最高的模型由蛋白质C1QBP,ERGIC1和ORMDL1组成(如下表)。
【文章小结】
背景
虽然大多数结直肠癌起源于腺瘤,但只有约3-5%的腺瘤会发展为癌症。不幸的是,能够预测腺瘤进展的可靠生物标志物仍然缺乏,因此每年进行一次结肠镜监测是目前的做法。
新发现
1)利用蛋白质组学,降维可区分结局不同的早期腺瘤样本,表明蛋白质组学是一种强有力的方法,可以通过病理学评估来区分在其他方面相同的样本。
2)没有一种蛋白质能明确地将异时晚期肿瘤与非异时晚期瘤区分开来,这支持了可能需要多种蛋白质、分析类型甚至整个蛋白质组来预测这种复杂疾病。
局限性
需要对更大的队列进行进一步的研究,以验证我们的预测蛋白质组分类。
临床研究相关性
针对分类器中确定的蛋白质子集的新疗法的开发可能为癌症提供有效的预防策略。
基础研究相关性
在分类器中鉴定的蛋白质的特征可能进一步加深我们对结直肠癌发生的分子理解。