BOB摘要:[目的/意义] 健康医疗大数据是我国重要的基础性战略资源。中文电子病历的分词与实体识别对今后医疗大数据的应用发展具有重要意义。[方法/过程] 本研究首先融合权威词表、官方标准、健康网站数据及其它医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以人工分词和人工标注为语料,实现基于条件随机场的电子病历实体识别研究,并比较中、西医病历、不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。BOB[结果/结论] 分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,中医病历的实体识别较难,“检查”和“疾病”实体的识别效果最好,而“症状”的识别效果不太理想。BOB 获奖情况:首届全国高校数据驱动创新大赛 优秀奖
基于wiki百科、、以及大量电子病历数据,使用Word2vec方法建立了向量模型。该模型能根据语料中包含的上下文信息及过去经验对词的语义关系进行高度准确的分析。BOB例如,BOB当输入咳嗽时,会给出与咳嗽密切相关的其他医学词汇(干咳、鼻塞等),以及其相关关系的量化。这样的相关性分析结果一方面可以用来实现健康社区问答数据的语义检索,一方面对相似电子病历的检索提供了语义基础。
所谓医疗辅助诊断功能,是指通过相似电子病历的检索,挖掘不同医生的诊疗模式,从而辅助临床诊断。由于电子病历主要由大量文本型数据组成,如主诉(即病人自述自己的症状、体征以及持续时间等内容)、现病史(记述患者病后的全过程,即发生、发展、演变和诊治经过)和既往史(即患者既往的健康状况和过去曾经患过的疾病)等,因此在计算病历相似度之前,课题组首先构建了医学分词词典,通过对比多种分词算法,选择具有最优效果的算法,然后在此基础上实现基于条件随机场的实体识别,BOB从而从病例的文本数据中提取患者的关键症状词,通过word2vec技术进行词语扩充,并根据主诉中提到的数字来决定该症状的严重程度,从而实现相似电子病历的检索。