【媒体文章】叶子、黄立鹤：自然语言处理助力老年认知健康智能筛查-同济大学老龄语言与看护研究中心

当前位置：首页 · 关于中心 · 建设成果 · 正文

建设成果

【媒体文章】叶子、黄立鹤：自然语言处理助力老年认知健康智能筛查

来源：发布日期：2024/11/11 点击量：

自然语言处理（Natural Language Processing，简称NLP）是研究如何对语言文本进行自动化处理的一个领域，被誉为人工智能皇冠上的明珠，该领域在近十年迎来了多项重大突破。例如，基于Transformer架构的BERT等预训练模型在自然语言理解的多项任务榜单中取得好成绩；ChatGPT的问世则将整个人工智能领域带入“大模型”的时代。进入语言大模型时代后，语言学、人工智能等跨学科联合将产生新质生产力，为我国老龄、医疗等领域发展的提质增效提供强劲动力。

阿尔茨海默病（AD）是认知障碍的一种常见表现，国际专家均认为，进一步挖掘早筛标志物是破解阿尔茨海默症治疗困局的关键。除了临床上已确立的生物标志物（如β-淀粉样蛋白、tau蛋白等）外，各国在持续研发其低成本、无侵入性的新标志物。已有大量研究显示，认知障碍患者的言语产出在多个语言维度上存在问题，国际上开始使用语言特征作为认知筛查的标志物。近年国际会议INTERSPEECH 2020上提出的ADReSS挑战赛就为基于NLP的AD筛查树立了标杆，邀请参赛队伍通过各种模型之间的比拼来刷新判别准确率的上限。

NLP赋能认知筛查的前沿进展

由于认知筛查的结果既可以是一个二分的类别（患有认知障碍与否），也可以是一个打分（患有认知障碍的程度或所处于认知障碍发展的阶段）。从机器学习的角度来看，这正对应分类与回归这两项最基本的任务。

传统的探索性研究大多采用t检验、方差分析、回归分析等统计方法进行相关性检验。相关性高的特征便可以作为适用于AD筛查的潜在语言标志物。目前已经发现的语言标志物涉及词汇、语义、句法、语用、语篇等维度。例如，在语义方面，目前最常使用的指标包括语义密度，又称命题密度。语篇方面包括基于潜在语义分析计算得到的连贯性指标等。AD患者明显具有语义密度低、文本连贯性差等特点。不过，针对单个变量的考察虽然可能会得到统计上的显著差异，但往往并不能完全区分开两个组别。因此，通过这些初步的探索性工作可以得到一个潜在的语言标志物的清单，但若要实际用于对老年人进行AD筛查、对其产出文本进行分类，则需要训练一个机器学习模型，使其具有较强的区分性。

NLP助力认知筛查主要体现在两个方面：

一是从文本自动进行特征提取。文本特征通常是由语言学专家提出的各类具有直观意义的指标，首先需要通过对大量语言学文献进行梳理，并经过人工标注或是复杂的手工计算。而通过编制NLP工具则可以自动化、快速、高精度地完成这些工作。如目前已有网页工具、可执行软件Coh-Metrix、LIWC、QUITA等，可直接输入文本后批量计算指标；而编程语言Python中常用的自然语言处理第三方标准库SpaCy、Stanza、NLTK等，可以对文本进行预处理、句法分析、自动标注等工作，并进一步计算更为复杂的指标。尤其是后者作为开源工具包，将为编制专用的、整合性的AD筛查软件打下基础。如在2021年一项由多伦多大学主持的研究中，学者们结合现有库与自编程序对多达540项语言特征进行了检查。

二是NLP为分类和回归提供了高准确率的模型。这既包括传统机器学习模型，如线性判别分析、支撑向量机、决策树与随机森林、逻辑斯蒂回归、朴素贝叶斯、k近邻、条件随机场等，也包括深度学习范式下的神经网络模型。近年来，深度学习已成为NLP领域的主流，其具有自动特征提取的优点，与传统机器学习模型依赖于专家知识的特征工程相比既节省了标注的人力成本，也节省了在文献中挖掘特征的时间成本，因此目前在AD筛查领域也可以发现一些相关的研究，使用到卷积神经网络、循环神经网络以及Transformer家族的BERT等模型。不过，神经网络所提取到的特征通常认为不具备可解释性。我们认为，一方面有必要将深度学习所挖掘到的特征的向量形式，与语言学各维度的专家知识进行相关性分析，对其进行解释。另一方面，鉴于在传统方法中已经发现了一些有效的语言标志物，即与AD筛查或认知功能障碍程度具有较强关联。因此，是否可以将其也作为特征维度，与深度学习最终用于预测前的向量合并，以得到更好的分类效果，也是一种研究思路。

NLP赋能认知筛查的未来展望

随着NLP技术的发展与愈来愈多具体工具被开发，NLP赋能认知筛查未来应当从三个方面进一步提升。

一是从范式上。NLP领域本身已完成从传统机器学习，到深度学习，再到大模型的跨越。一方面，利用现有的通用人工智能（AGI）大模型，可以利用提示词以及指令更精确地辅助完成特定任务。另一方面，在ChatGPT出现后，有许多学者在基线模型的基础上通过微调训练垂直领域的特定大模型，如金融、气象、医疗问诊等领域的各类“专门用途GPT”等。然而在对阿尔茨海默病或痴呆症的筛查上，大模型暂未崭露头角。从这两条线出发都可进一步尝试提升NLP角度的阿尔茨海默病筛查的准确率。

二是在标志物方面。目前呈现出从单一模态过渡到多模态数据结合的趋势。尽管自然语言处理的主要对象是文本，即离散符号的序列，但文本一般来自于语音的转写。同一段言语中，语音形式可能包含大量文本中所不含有的特征。此外，其他信息还包括被试的元信息，以及任何可获取的体液标志物信息（结构化数据）和影像学结果（图像数据）。同济大学老龄语言与看护研究中心的研究团队也在该方面进行了尝试，利用多种模态信息结合训练机器学习模型对AD患者与非AD患者的言语产出进行判别，目前已有超过80%的准确率。

三是在语料方面。当前的训练与测试语料大多来自于标准化测试，如著名的痴呆症患者话语语料库DementiaBank中基于波士顿偷饼干图描述任务的诱导产出话语。近来也有学者使用指称交际任务等新型产出范式，并尝试通过深度学习模型进行筛查。然而，认知筛查的要求之一是低成本与高效，严格遵守标准化测试的整个流程无疑会提高语料获取的门槛。因此，基于自发言语（spontaneous speech）的AD筛查是另一趋势。如何通过尽可能少量、无限制的语料进行准确的判断，将是学界下一阶段的研究重点。此外，在其他类型的临床医疗筛查中，往往基于对大量健康人士在各指标上的数据收集来得到一个常规区间范围。当前对AD患者的语言研究与分类筛查中，通常数据量较小，而大模型时代最需要的就是数据。因此目前亟需大量累积数据，以获得更具有普适意义的文本指标范围以及更准确的模型。

总之，借助自然语言处理技术对语言标志物进行提取是一项兼具理论意义与应用前景的前沿工作，有利于对患有早期认知障碍的人群进行干预与预防，是语言方法攻关老龄问题的跨学科创新路径。

（叶子，同济大学老龄语言与看护研究中心博士后；黄立鹤，同济大学老龄语言与看护研究中心长聘教授；本文系国家社科基金项目“基于机器学习的认知障碍人群语言特征及自动筛查研究”阶段性成果）

本文转载自《语言文字周报》2024年11月10日第2版

上一条：【论文】代聪忱、黄立鹤：Exploring Harmful Illocutionary Forces Expressed by Older Adults with and Without Alzheimer's Disease: A Multimodal Perspective

下一条：【论文】黄立鹤、叶子：基于深度学习的老年认知障碍与语言特征研究