鹏城实验室推出面向中文医疗文本处理的预训练模型PCL-MedBERT

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,是谷歌公司发布的预训练模型,2018年在 11 个文本处理任务上的表现刷新了历史记录,为自然语言处理技术带来新一波推动力量。但Google BERT的训练语料来源于Wikipedia中文数据(25M句子),对特定领域文本处理任务的支持尚有改进空间,尤其是中文医疗文本处理领域。

为了进一步促进中文医疗文本处理研究和应用的发展,鹏城实验室人工智能研究中心智慧医疗课题组“智慧医学知识处理”任务组针对Google BERT的不足,从多个来源收集了1.2G的专业医疗文本和1.5G的高质量医疗问答数据,用于建立面向医疗文本的BERT预训练模型,同时采用随机初始化和二次微调的方式对BERT模型进行优化,最终获得鹏城医疗BERT预训练模型,可以支持医疗领域不同的下游任务。目前该模型在问句匹配和医学命名实体识别这两个下游任务上均超越Google BERT!

下表列出了不同医疗任务上鹏城医疗BERT(PCL-MedBERT)和Google BERT的对比结果。

表1 问句匹配任务
模型 数据集 乙肝 高血压 糖尿病 比较
正负例 2878 : 4575 2652 : 4994 6365 : 8902  
Google BERT Acc 82.10 88.90 91.40 ---
F1 77.50 85.30 90.00 ---
PCL-MedBERT Acc 83.40 89.10 92.70 +1.03
F1 78.30 85.30 91.50 +0.95
 
表2 医疗病例命名实体识别任务
模型 数据集 医疗病例命名实体 比较
Google BERT F1 88.31 ---
PCL-MedBERT F1 88.68 +0.37
 
 
PCL-MedBERT的主要研发人员:刘挺教授、秦兵教授、刘铭副教授、徐睿峰教授以及卞荣阗、张义策等研究生同学。汤步洲副教授团队负责在问句匹配和医学命名实体识别任务上进行验证。陈清财教授团队提供了丰富的专业医疗数据。全部模型的大规模训练均在在鹏城云脑平台完成。

该预训练语言模型已在鹏城汇智代码托管平台ihub.org.cn上向全球免费开放,下载地址和配置文件请访问:
https://code.ihub.org.cn/projects/1775

欢迎从事中文医疗文本处理的研发人员关注和使用,期待大家提出宝贵的意见和建议!