
鲸跃科技在医疗知识图谱构建方面有以下创新:
1. 数据来源广泛:
- 利用网络爬虫技术,从百度百科、丁香园、药监局等专业医学网站爬取疾病描述、症状描述、问答、评论等医疗文本数据。
- 将大规模电子病历数据源按照科室-疾病-症状的顺序划分,再对子数据源进行实体标注和关系抽取后构建子图谱,最后将子图谱融合得到大规模医学知识图谱。
2. 构建方法高效:
- 采用并行的构建方式,提高了医学知识图谱构建的效率。
- 提出了一种基于反向指导的数据源划分、采用逆向划分方式并行进行图谱融合的方法,大大提高了医学知识图谱构建的效率。
3. 实体融合精准:
- 采用集成实体对齐的方法进行实体融合,并添加人工检验的方式,提高了知识图谱的完整性和准确性。
4. 图谱质量优化:
- 将图嵌入的工作应用在医疗知识图谱中,提出了一种优化的图嵌入方法,使图谱的预测效果更好。通过图嵌入学习到的疾病和症状的向量,可以实现语义计算和可视化,不同疾病和症状的向量会根据其临床表现、检验结果、用药和手术治疗等相似度进行聚集,同一个系统的疾病会聚集在一起,字面不相关但经常同时出现在相似疾病病例中且治疗方式类似的症状,其embedding也很相似。
展开剩余62%5. 技术应用拓展:
- 在医疗知识图谱的基础上进行拓展应用,如利用患者的主要诊断查询知识图谱中最相关的药物,并与患者住院期间用药进行匹配,使用PSR指标对药物进行排序,大大节省了医生的时间,提高工作效率。
- 开发了智能问诊系统,当患者身体不适时,可以通过智能问诊进行症状自查,系统会模拟医生问诊思路,基于构建的疾病概率知识图谱,生成最有用的候选题目与答案选项,给患者最有可能的疾病与建议就诊科室。
6. 知识挖掘深入:
- 将医疗知识图谱中的三元组升级为四元组,在其中增加了属性元,记录了更多的数据挖掘信息,如症状的发生概率、疾病中出现该症状的频率、知识的来源数量等,以及与文献中的经典医学知识进行融合时相关知识的限定。
- 提出了实体的特异度(Specificity)指标,使用类似IDF的算法挖掘疾病真实的典型症状,可以更好地发现与疾病的特异性较高的实体。
- 将疾病三元组的条件概率(probability)、特异度(specificity)、可靠度(reliability)进行融合,形成PSR指标,可对给定主语实体和属性的多个对象做排序,如挖掘肺癌相关的检验指标时,可将肺癌的典型肿瘤标志物排在前面。
7. 知识质量评估与融合:
- 针对面向多源数据的医疗行业高可信度知识图谱的构建,方法流程更加优化,增加了知识源可信度评估、知识源结构分析、知识图谱本体设计和知识抽取模型训练等步骤,细化了知识源评估、知识可信度计算方法和基于预处理的知识抽取模型等技术细节,调整了知识融合和知识质量评估的先后关系,完成了面向医疗领域高可信度知识图谱构建的全流程方案。
8. 临床经验补充:
- 采集不成文的医生经验作为补充,通过面对面的访谈、问卷调查和专家讨论等方式,搜集医生在特定领域的见解、技巧和治疗策略,并将其加入到知识图谱中,充分利用医生的临床经验,为知识图谱提供更全面和深入的内容。
9. 硬件设备辅助:
- 利用硬件设备——诊室听译机器人自动采集临床诊疗音频,通过语音识别和自然语言处理技术,将医生和患者之间的对话转化为文本信息,并将其加入到医疗知识图谱中,可以捕捉到丰富的临床实践数据,包括病历描述、症状表现、诊断过程和治疗方案等内容,从而探索更深入的医学知识和规律,提高医生的诊断能力和治疗效果。
发布于:河北省金鼎配资提示:文章来自网络,不代表本站观点。