虚拟专题知识图谱医学知识图谱构建关键技术

来源:《大数据》

医学知识图谱构建关键技术及研究进展

谭玲1,鄂海红1,匡泽民2,宋美娜1,刘毓1,陈正宇1,谢晓璇1,李峻迪1,范家伟1,王晴川1,康霄阳1

1北京邮电大学

2首都医科医院

摘要:随着互联网技术的不断迭代更新,对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望。

关键词:医学知识图谱;构建;关键技术;研究进展

论文引用格式:

谭玲,鄂海红,匡泽民,等.医学知识图谱构建关键技术及研究进展[J].大数据,,7(4):80-.

TANL,EHH,KUANGZM,etal.Keytechnologiesandresearchprogressofmedicalknowledgegraphconstruction[J].BigDataResearch,,7(4):80-.

1引言

人工智能的发展已经进入快车道,作为新一轮科技革命和产业变革的重要驱动力量,人工智能技术正在深入各行各业,悄无声息地改变着人们日常生活的方方面面。知识图谱是由谷歌(Google)公司在年提出的一个概念,本质上是语义网的知识库。知识图谱由节点和边组成,节点表示实体,边表示实体与实体之间的关系,这是最直观、最易于理解的知识表示和实现知识推理的框架,奠定了第三代人工智能研究的基础。

目前,医学是知识图谱应用较广的垂直领域之一,也是目前国内外人工智能领域研究的热点。医学知识图谱在临床诊断、治疗、预后等方面均可发挥较大的作用。高效地将知识图谱应用于医学领域将给人类的医疗卫生带来革命性的变化。由于医学领域数据的特殊性,医学知识图谱的构建也面临不少机遇与挑战。

本文对医学知识图谱构建的关键技术及应用进行了全面的梳理,对各类公共数据集、处理医学问题的特异性难点及现有解决办法进行了综述。通过阅读本文,可以了解医学知识图谱的发展现状、未来发展方向以及面临的挑战,便于医学知识图谱研究者参照对比,加快医学知识图谱领域的研究及临床落地应用。

本文主要按照医学知识图谱构建的流程来阐述,主要框架如图1所示。

图1医学知识图谱构建框架

2医学本体构建

网络上文本数据的爆炸式增长,以及对本体需求的增加,促进了语义网络的发展,使得基于文本的本体自动构建成为一个非常有前途的研究领域。文本本体学习是一种以机器可读形式(半)自动地从文本中提取和表示知识的过程。本体被认为是在语义网络上以更有意义的方式表示知识的主要基石之一。

2.1本体构建定义及任务

万维网联盟(WorldWideWebConsortium,W3C)将本体论定义为用于描述和表示知识领域的术语。本体是一个数据模型,它表示一组概念以及一个域中这些概念之间的关系。

本体构建可以定义为从头创建本体或重用现有本体以丰富或填充现有本体的迭代过程。构建本体的过程包括以下6个任务:

●指定一个域以创建定义良好的术语和概念;

●识别域中的关键术语、概念及其关系;

●建立或推断描述域结构属性的规则和公理;

●使用支持本体的表示语言(如资源描述框架(resourcedescriptionframework,RDF)、资源描述框架模式(resourcedescriptionframeworkschema,RDFS)或网络本体语言(Webontologylanguage,OWL))对构建的本体进行编码(表示);

●将构建的本体与现有本体结合(如果现有本体可用);

●通过使用通用和特定的评估度量来评估构建的本体。

2.2医学本体构建难点及现有技术

随着对许多医学本体构建研究的深入,目前医学本体库的构建主要存在以下难点。

首先应该尽可能减少在本体构建过程中的人为干预。目前实现本体构建过程的完全自动化是不现实的,怎样减少人为干预是目前医学本体构建的一个难点和热点。年,MazenA等人提出了一种新的本体自动生成框架,即链接开放数据项目授权的生物医学本体自动生成(linkedopendataapproachforautomaticbiomedicalontologygeneration,LOD-ABOG)方法。与现有框架相比,参考文献[3]的评估结果显示,大多数本体生成任务的结果有所改善。该参考文献提出的LOD-ABOG框架表明,现有的LOD源和技术是一个很有前途的解决方案,可以在更大程度上实现生物医学本体生成和关系提取过程的自动化。另外,与现有的框架在本体开发过程中需要领域专家的参与不同,该参考文献提出的方法只要求领域专家在本体构建周期结束时参与到本体的改进中。

年,LytvynV等人提出了从自然文本中提取知识的方法和算法(包括一个基于本体引入的概念、关系、谓词和规则的多层次过程),建立了一种基于本体的本体开发方法,该方法利用现有本体对文本文档进行分析,构建了命名和本体术语体系。这使得本体开发过程自动化成为可能。

再者,由于医学信息的特殊性,对医学信息的匿名化处理在本体构建过程中也是一个难点。年,PolsleyS等人提出一种可识别被映射到本体论术语的受保护健康信息(protectedhealthinformation,PHI)的方法,临床专家使用数百份医学文献对该方法进行了评价,F1分数达98.8%,在后续处理中保留语义信息具有一定的前景。但该方法仍有较大的局限性,需要不断地进行优化。

2.3医学本体常用数据集

医学本体较常用的数据集主要有以下几种,见表1。

2.4挑战及未来研究方向

首先,由于医学数据的多样性,在设计医学本体构建系统时,无论是来自小的静态文本集合的数据,还是万维网上的海量异构数据,都需要进行数据转换。目前,针对此问题的文献较少,有待后续研究的推进。

其次,医学的临床数据会不断变化,如何根据患者的当前情况创建动态的最佳保护服务,为患者提供个性化的实时医疗护理也是医学实体构建过程中的一大问题。

3医学命名实体识别

3.1命名实体识别定义

命名实体识别(namedentityrecognition,NER)又称专名识别,指识别文本中具有特定意义的实体(主要包括人名、地名、机构名、专有名词等)。通常包括两部分:一是识别实体边界;二是确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),因此识别实体边界相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,实体边界的识别更加困难。

3.2医学命名实体识别难点及现有技术

与传统的命名实体识别相比,医学名词实体一般比较长,长实体名词常常包含多个名词实体,造成医学实体边界识别的难度较大。此外,医学名词存在大量的同义词替换、缩写以及一词多义现象,加大了确定实体类别的难度。

针对医学实体中大量同义词替换以及大量缩写的问题,年KatoT等人提出了一种共享和学习标签组件嵌入的方法,通过对英语和日语细粒度NER进行实验,证明了该方法比标准序列标记模型性能更好,特别是在低频标签情况下。

为了解决医学名词实体较长、识别边界困难的问题,年,TanCQ等人提出了边界感知的神经网络模型来预测实体的类别信息。该模型可以先定位出实体的位置,然后在对应的位置区间内进行实体类型的预测。在公开的嵌套NER数据集上,该模型取得了超越以往方法的效果,并在预测上取得了更快的速度。

另外,大多数NER系统只处理平面实体,忽略了内部嵌套实体,导致无法捕获底层文本中的细粒度语义信息。为了解决这个问题,年JuMZ等人提出了一种新的神经模型,通过动态叠加平面NER层来识别嵌套的实体。模型将长短时记忆(longshorttermmemory,LSTM)层的输出合并到当前的平面NER层中,为检测到的实体构建新的表示,并将它们提供给下一个平面NER层。模型动态地堆加平面NER层,直到没有提取任何外部实体。该模型针对特定数据集(具有多种类别和嵌套的实体)具有较好的实验效果。

对于医学实体中常见的一词多义现象,年PhamTH等人在细粒度NER任务中进行了多任务学习和语境化单词表征的有效性研究,并研究了多任务序列标记的不同参数共享方案、神经语言模型学习和不同单词表示设置下的学习。最终得到的最佳模型不需要任何额外的人工操作来创建数据和设计特征,F1分数达到83.35%。LuoY等人提出了一个增加了上下文表示层次的模型:句子级表示和文档级表示。在句子级,考虑到单个句子中单词的不同贡献,通过标签嵌入注意机制来增强从独立的双向长短时记忆(bidirectionallongshorttermmemory,BiLSTM)学习到的句子表征。在文档级,采用键值存储网络记录对上下文信息相似度敏感的单个单词的文档感知信息。在基准测试的实验结果数据集(CoNLL-和Ontonnotes5.0英语数据集,CoNLL-西班牙语数据集)上获得了最先进的结果。

3.3医学命名实体识别常用数据集

医学命名实体识别较常用的数据集主要有以下几种,见表2。

3.4挑战及未来研究方向

(1)多类别实体在不同语境、不同词性、不同类别下的应用

语言的博大精深、丰富多彩正是语言的魅力所在,但对于机器来说,丰富多彩的语言使语言的使用规则变得更加复杂,很难归纳和总结。将机器语言变得更加智能,理解多类别的实体在不同语境、不同词性及不同类别下的应用是一个重要的研究方向。

(2)嵌套实体的研究

在医学领域中,实体嵌套的现象非常常见,绝大部分医学长实体中会存在实体嵌套,如何更有效地识别实体嵌套是医学命名识别实体领域必须面对且具有重要意义的问题。

(3)实体识别与实体关系抽取的结合

输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组。这可以克服实体识别模块的错误引起的错误传播,重视两个子任务之间存在的关系,使信息抽取任务完成得更加准确高效,但同时也可能会有更复杂的结构,因此如何用更简单的结构实现实体识别和实体关系抽取的结合将是之后的研究重点。

4医学实体关系抽取

4.1实体关系抽取定义

实体关系抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来信息抽取的兴起,实体关系抽取进一步得到广泛的


转载请注明:http://www.aierlanlan.com/tzrz/4937.html