设为首页 | 加入收藏 |
新闻动态

Data Knowledge | 知识图谱:让数据“连接”成智慧

2025.11.05            浏览量:

在数字化时代背景下,数据科学已成为驱动社会进步与行业革新的核心动力。秉承学校“以企业为导向,以学生为中心”的教育理念,同时响应企业对高素质数据分析人才的需求,数据科学学院推出“Data Knowledge”专栏,将普及数据模型、数据结构、机器学习等基础数据科学知识,为师生提供持续学习和成长的平台,同时,通过连接教学理论与现实实际,在生动传递专业知识的同时,深化教师队伍的知识储备,助力应用型数据分析人才的培养。


undefined

作者简介:杨语嫣,大数据管理与应用专业教师。

研究方向: 医疗与健康数据分析。

主讲课程:《统计学》


在信息爆炸的时代,数据无处不在,却常常“各说各话”。 不同数据库、文本、表格、API等,像散落在大海中的孤岛,无法互联、无法共享。 而知识图谱(Knowledge Graph)正是那张让数据“互相理解”的世界地图——它让机器真正“看懂”信息之间的逻辑,构建起从“数据”到“知识”的桥梁。


图1 以人工智能为主体的知识图谱


01

什么是知识图谱?


当说出“苹果”这个词,大家会立刻想到什么?它是一种水果,口感清脆,也可能想到苹果公司、乔布斯、iPhone等。在大脑中,知识从来不是孤立的,而是一张庞大的关系网络——每个概念都和其他无数概念相连,这正是知识图谱的灵感来源。它用计算机的语言,把这种人脑的知识网络画了出来。


从技术上讲,知识图谱是通过“实体(Entity)-关系(Relationship)-实体(Entity)”的三元组,将知识以结构化的方式表示。例如感冒、临床症状、鼻塞,“感冒”和“鼻塞”是两个实体,中间的“临床症状”就是它们之间的关系。


图2 三元组


成千上万的三元组拼在一起,就能构成一个庞大的医学知识图谱。它让计算机能“理解”世界中事物的关系,像人类一样进行逻辑推理。用一句话总结,知识图谱就是给现实世界画了一张知识关系地图,它不仅传达出“是什么”,更传达出“和谁有关”以及“是什么关系”。


图3 以普通感冒为主体的医学知识图谱


02

知识图谱是怎么建成的?


我们可以把知识图谱的构建想象成一栋“知识大厦”的诞生。要建大楼,得先有原料、有设计蓝图、有施工、有装修。知识图谱也一样,主要分四步:


图4 知识图谱的构建流程


  • 数据采集(备料)
    从各种来源收集相关的数据资料,例如行业文档、技术手册、新闻网页、论文等,甚至在多模态图谱中,还能处理图片、音频、视频。

  • 本体构建(设计蓝图)
    本体是图谱的“设计图纸”,定义有哪些实体类型、允许什么关系。比如医学知识图谱中,我们基于医学数据特点,一般先定义疾病、药品、症状等实体类型,以及“疾病—症状”、“疾病—药品”等关系,再考虑具体的实体。

  • 知识抽取(主体施工)
    将非结构化数据(如病例记录、医学论文等)转化为结构化的知识三元组,实现从“文字”到“知识”的提炼与重构。这一步最为核心,也是知识图谱“长出形状”的时刻。

  • 知识融合(精装修)
    不同来源的数据说法各异,比如“感冒”、“上呼吸道感染”、“风寒”、“着凉”都可能指同一个东西。融合阶段要保证它们指向同一个知识概念,最终呈现为唯一的知识节点。


最后,整栋大楼需要一个图数据库来存储,比如Neo4j。它能高效处理图结构数据,让我们可以随时进行查询和推理。


03

知识图谱能做什么?


  • 智能问答系统

    构建智能问答系统是知识图谱的经典应用。以医学知识图谱问答系统为例,用户问“我最近鼻塞和身体酸痛,这是怎么了?”,系统会识别相关症状节点,并沿关系路径推理出“感冒”疾病,再找到对应药物和治疗方案,以自然语言生成回答:“根据您的症状,您很可能患感冒。”这一回答基于图谱推理,可靠且可解释。


图5 知识图谱问答系统


  • 知识可视化

    图是知识图谱存储与应用的基础,凭借强大的数据关联和知识表达能力,能够将复杂的关系直观呈现。图谱中节点的颜色、线条粗细和大小可以进一步反映节点的重要性、影响力以及关系传导方向,使用户能够快速识别关键实体及潜在风险。


  • 智能推荐系统

    大家是否遇到过这种情况:刚在购物平台搜了个露营帐篷,转头打开短视频平台,全世界都在推荐防潮垫、折叠椅、户外电源?这并不是“偷听”,而是知识图谱在背后默默工作。知识图谱能够构建用户、商品、兴趣等多维度的关系网络,让推荐系统不仅知道“买了帐篷就推帐篷配件”,还能结合用户的行为画像识别兴趣标签,比如“该用户可能是健身爱好者”,从而进一步推荐健康食品、健身课程或相关内容。


04

知识图谱 vs 大模型


那现在大模型这么强大,还需要知识图谱吗?当然需要。知识图谱与大模型的碰撞就像理科状元遇上文科天才,两者分别代表了机器学习两大技术流派——符号主义与连接主义。知识图谱如理科状元,逻辑严谨、推理清晰,能够提供可追溯、可解释的事实支撑,有效抑制大模型生成内容时的“幻觉”;而大模型如文科天才,表达流畅、创意丰富,擅长从海量数据中自动学习并生成自然语言。现在最前沿的趋势是两者结合,比如 GraphRAG、GraphGPT 等新架构。


表1 知识图谱与大模型的特点对比


05

结语


知识图谱的核心,是让“知识不再孤立”。它打破数据边界,赋予机器语义推理能力,也为人类理解复杂世界提供了全新工具。在智能时代,无论是智能搜索、AI问答,还是企业数据中台,知识图谱都是不可或缺的“智慧底座”。让我们用图的语言重新编织知识网络,开启一场从数据到智慧的全景探索之旅。



延伸阅读

  • 陈华钧,浙江大学计算机科学与技术学院教授,慕课《知识图谱导论》
  • Neo4j官网教程,
    https://neo4j.com/docs/getting-started/whats-neo4j/
  • B站教程《基于Python+Neo4j搭建知识图谱医药问答系统实战》



------- 友情链接 -------

学校地址:陕西省西安市雁塔区东仪路8号    


Copyright 2017 Xi'an Eurasia University , All Rights Reserved , 陕ICP备13005465-1