实验室智慧医疗研究新成果：大规模合成病理数据集应用于乳腺癌细胞核检测

来源：上海人工智能实验室｜ 2023-05-10

近日，上海人工智能实验室与合作伙伴发表一项AI模型虚拟数据集方面的最新研究成果——将大规模合成病理图像数据集应用于乳腺癌细胞核的检测，结合深度学习，可大幅提高AI模型在不同临床任务中的性能表现。

数据集描述论文《A Large-scale Synthetic Pathological Dataset for Deep Learning-enabled Segmentation of Breast Cancer》发表于Nature旗下刊物Scientific Data (IF: 8.501)[1]。

本论文通讯作者张少霆为上海人工智能实验室智慧医疗研究中心主任；主要作者之一周牧为实验室智慧医疗研究中心顾问，其曾在斯坦福大学医学院担任研究员，研究聚焦于人工智能与医疗、生物信息、药物研发及临床信息化等前沿领域。

根据世界卫生组织发布的数据，乳腺癌是女性中最常见的癌症类型之一，仅2020年全世界约有230万新增病例。在临床实践中，数字化的病理图像可以帮助医生捕捉到癌症组织和细胞的分布，纹理，及几何形态特征。其中，乳腺癌细胞核的形态特征与患者的预后表现密切相关，因而细胞核的检测对乳腺癌的治疗有着重要的临床意义。

近年来，人工智能中的深度学习方法被广泛应用于细胞核自动分割，然而模型的性能大多依赖于大规模的数据量和临床中的人工图像标注（如图1(a)所示）。然而医学领域中存在着对病人隐私保护和精准数据标注等挑战，现实中很难创建高质量且大规模的临床数据集。为应对这些挑战，自动化地完成细胞核数据的生成、筛选和标注将成为一种成本低、效益高的途径。在实际应用中，通过虚拟数据的生成、开发和应用可以快速增加数据的多样性，从而提高AI模型在不同临床任务中的性能表现（如图1(b)所示）。

图1. 真实临床数据集创建和AI模型虚拟数据集生成流程的比较

本项研究的目标之一是生成一个大规模的虚拟化的临床图像数据集，同时也为生成的虚拟图像提供了细胞核的标注标签，该虚拟数据集被命名为“Synthetic Nuclei and annOtation Wizard (SNOW)”。SNOW数据集的开发应用了现有的图像生成和细胞核标注模型。该数据集包含总共2万个虚拟图像片区和1,448,522个被带有标注的细胞核。生成虚拟数据集的主要工作流程包括用于生成乳腺癌虚拟病理图像的虚拟图像生成器 (SIG) 和细胞核标注器 (NA)，如图 2 所示。图像生成器通过在有限的真实病理数据集（例如 BreCaHAD）上进行训练，能够生成大量的虚拟病理图像片区。细胞标注器旨在为虚拟图片生成无需手动校正的细胞核标注。上述设计提供了一种高效且可复现的方法来生成配对的虚拟病理图像样本和细胞核标注。SNOW数据集的开发扩展了现有的病理图像细胞核分析的数据规模，同时无需增加人工标注的工作量。

图2. SNOW数据集生成流程

该数据集生成流程中包含虚拟图像生成器 (SIG) 和细胞核标注器 (NA) 的联合工作流程：使用真实图像数据训练虚拟图像生成器-使用真实数据集提供的图像和细胞核标注来训练细胞核标注器-使用细胞核标注器为虚拟图像生成所需的细胞核标注。蓝色箭头表示虚拟图像生成的工作流程，绿色箭头表示细胞核标注的工作流程。

研究人员分别使用虚拟和真实数据集（如PanNuke数据集）对细胞核分割模型进行训练，最后使用真实数据集（TNBC数据集）对模型性能进行测试。实验结果表明，比起使用真实数据集，在单独使用SNOW虚拟数据进行训练时，多种深度学习模型都可以在有监督和半监督的训练场景下得到具有竞争力的细胞核分割结果。

实验发现，在有监督训练环境下，虚拟数据训练的细胞核分割模型的分割性能优于在真实世界数据集上训练的模型，且后者的性能提升往往依赖于更多数据以及人工标注。相比之下，SNOW虚拟数据集上训练的模型可以作为真实世界数据集的经济高效的替代品。例如，在细胞核分割误差率方面，虚拟数据训练的模型比真实数据训练的模型约降低了15%。此外，在SNOW虚拟数据集上进行半监督训练的细胞核语义分割模型也将误差率约降低了22%。这一结果得益于模型半监督学习中生成的“伪标注”使模型能够在未遇到过的测试示例上具有良好的泛化能力。相比之下，使用真实数据集对模型进行半监督训练时，由于训练样本数量的限制，模型细胞核语义分割的性能会有显著下降。

总体来看，本研究有效地回答了三个重要的问题：第一，能否通过利用公开训练数据，以更少的人力成本来生成有价值并且信息丰富的虚拟样本？第二，在使用大规模虚拟图像进行细胞核自动分割时，需要哪种类型的模型训练策略？第三，虚拟图像能否作为真实世界数据集的替代品？

研究人员发现，高质量的虚拟数据集有望成为深度学习细胞核分割的关键数据资源，并有效满足计算病理学中相关训练数据的需求。针对下游应用，SNOW数据集有望促进基于图像的分析，例如肿瘤分期、预后和基因分子分析；还可以促进针对乳腺癌的模型预训练和微调任务。此外，SNOW 数据集可用作训练性攻击检测模型的源数据，以识别医学图像分析中的恶意攻击。与当前使用真实世界病理数据的模型训练工作流程相比，SNOW为大规模虚拟数据生成、使用和分析提供了一份指南，并为自动化处理病理数据和相关分析奠定了数据和计算的基础。

[1] 论文《A Large-scale Synthetic Pathological Dataset for Deep Learning-enabled Segmentation of Breast Cancer》链接：https://www.nature.com/articles/s41597-023-02125-y

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

实验室智慧医疗研究新成果：大规模合成病理数据集应用于乳腺癌细胞核检测

来源：上海人工智能实验室｜ 2023-05-10