0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是知识图谱?人工智能世界知识图谱的发展

恬静简朴1 来源:恬静简朴1 作者:恬静简朴1 2022-06-01 19:54 次阅读

1.1 什么是知识图谱

知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法[1]。知识图谱由节点和边组成。节点可以是实体,如一个人、一本书等,或是抽象的概念,如人工智能、知识图谱等。边可以是实体的属性,如姓名、书名,或是实体之间的关系,如朋友、配偶。知识图谱的早期理念来自Semantic Web[2,3](语义网),其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。

1989年,Tim Berners-Lee 提出构建一个全球化的以“链接”为中心信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为,相比基于树的层次化组织方式,以链接为中心和基于图的组织方式更加适合互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

1994年,Tim Berners-Lee 又提出 Web 不应该仅仅只是网页之间的互相链接。实际上,网页中描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含语义,即这些实体或概念之间的关系;然而,机器却无法有效地从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是客观世界中的实体(如人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是数据的互联网(Web of Data)或事物的互联网(Web of Things)。

在 Semantic Web 被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase[5],作为IBM Waston后端的DBpedia[6]和Yago[7],作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Wolfram Alpha,以及开放的Semantic Web Schema——Schema.ORG[8],目标成为世界最大开放知识库的Wikidata[9]等。尤其值得一提的是,2010年谷歌收购了早期语义网公司 MetaWeb,并以其开发的 Freebase 作为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。随后,知识图谱逐步在语义搜索[10,11]、智能问答[12-14]、辅助语言理解[15,16]、辅助大数据分析[17-19]、增强机器学习的可解释性[20]、结合图卷积辅助图像分类[21,22]等多个领域发挥出越来越重要的作用。

如图1-1所示,知识图谱旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型。知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱的应用则涉及语义搜索、智能问答、语言理解、决策分析等多个领域。构建并利用好知识图谱需要系统性地利用包括知识表示(Knowledge Representation)、图数据库、自然语言处理、机器学习等多方面的技术。

poYBAGKXU1yAcGzcAADMII-G7sI02.jpeg

图1-1 知识图谱:事物关系的可计算模型

1.2 知识图谱的发展历史

知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。从早期的人工智能发展历史来看, Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF(Resource Description Framework,资源描述框架)、OWL(Web Ontology Language,网络本体语言)都是面向 Web 设计实现的标准化的知识表示语言;而知识图谱则可以看作是Semantic Web的一种简化后的商业实现,如图1-2所示。

pYYBAGKXU1yAA9iiAAFFCUfRji895.jpeg

图1-2 从语义网络到知识图谱

在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号表示人脑中的知识并模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力的大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的人工智能,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。

哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)和被相信(Believed)。简而言之,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得并总结出的所有事实(Fact)、概念(Concept)、规则(Rule)或原则(Principle)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型(Computable Model of Reality)。从广义上讲,神经网络也是一种知识表示形式,如图1-3所示。

poYBAGKXU16AO_1eAAB3gOY6Ym458.jpeg

图1-3 知识图谱帮助构建有学识的人工智能

符号派关注的核心正是知识的表示和推理(KRR,Knowledge Representation and Reasoning)。早在1960年,认知科学家 Allan M.Collins 提出用语义网络(Semantic Network)研究人脑的语义记忆。例如,WordNet[23]是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系。WordNet被广泛应用于语义消歧等自然语言处理领域。

1970年,随着专家系统的提出和商业化发展,知识库(Knowledge Base)构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策的,因此人工智能的核心应该是用计算机符号表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期的专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多地被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。

知识图谱与传统专家系统时代的知识工程有着显著的不同。与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。如图1-4所示,传统的知识库,如Douglas Lenat从1984年开始创建的常识知识库 Cyc,仅包含700万条[1]的事实描述(Assertion)。Wordnet 主要依靠语言学专家定义名词、动词、形容词和副词之间的语义关系,目前包含大约20万条的语义关系。由著名人工智能专家 Marvin Minsky于1999年起开始构建的 ConceptNet[24]常识知识库依靠了互联网众包、专家创建和游戏三种方法,但早期的 ConceptNet 规模在百万级别,最新的ConceptNet 5.0也仅包含2800万个RDF三元组关系描述。谷歌和百度等现代知识图谱都已经包含超过千亿级别的三元组,阿里巴巴于2017年8月发布的仅包含核心商品数据的知识图谱也已经达到百亿级别。DBpedia已经包含约30亿个RDF三元组,多语种的大百科语义网络BabelNet包含19亿个RDF三元组[25],Yago3.0包含1.3亿个元组,Wikidata已经包含4265万条数据条目,元组数目也已经达到数十亿级别。截至目前,开放链接数据项目Linked Open Data[2]统计了其中有效的2973个数据集,总计包含大约1494亿个三元组。

现代知识图谱对知识规模的要求源于“知识完备性”难题。冯·诺依曼曾估计单个个体大脑的全量知识需要2.4×1020个bits存储[26]。客观世界拥有不计其数的实体,人的主观世界还包含无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。

pYYBAGKXU16AflWBAADcT7n4gn054.jpeg

图1-4 现代知识图谱的规模化发展

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47241

    浏览量

    238355
  • 深度学习
    +关注

    关注

    73

    文章

    5503

    浏览量

    121135
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    7704
收藏 人收藏

    评论

    相关推荐

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对
    的头像 发表于 12-16 17:04 311次阅读
    传音旗下<b class='flag-5'>人工智能</b>项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    光谱看谱镜分析图谱

    火电厂材质分析看谱镜图谱
    发表于 12-06 15:02 0次下载

    软通动力入选《人工智能数据标注产业图谱

    近日,由中国信息通信研究院、中国人工智能产业发展联盟牵头,联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布了《人工智能数据标注产业图谱》。
    的头像 发表于 12-03 10:18 150次阅读

    嵌入式和人工智能究竟是什么关系?

    领域,如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一个分支,它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能发展历程可以追溯到上世纪50年代,经
    发表于 11-14 16:39

    58大新质生产力产业链图谱

    大跃升 的先进生产力。 58大新质生产力产业链图谱 01 元宇宙产业图谱 02 算力产业图谱 03 数商产业图谱 04 人形机器人产业图谱
    的头像 发表于 11-09 10:16 347次阅读
    58大新质生产力产业链<b class='flag-5'>图谱</b>

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 606次阅读

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    探讨了人工智能如何通过技术创新推动能源科学的进步,为未来的可持续发展提供了强大的支持。 首先,书中通过深入浅出的语言,介绍了人工智能在能源领域的基本概念和技术原理。这使得我对人工智能
    发表于 10-14 09:27

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    活的世界? 编辑推荐 《AI for Science:人工智能驱动科学创新》聚焦于人工智能与材料科学、生命科学、电子科学、能源科学、环境科学五大领域的交叉融合,通过深入浅出的语言和诸多实际应用案例,介绍了
    发表于 09-09 13:54

    三星电子将收购英国知识图谱技术初创企业

    人工智能技术日新月异的今天,三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日,三星正式宣布完成了对英国领先的人工智能(AI)与知识图谱技术初创企业Oxford Semantic Technologies的收购,此举
    的头像 发表于 07-18 14:46 519次阅读

    知识图谱与大模型之间的关系

    人工智能的广阔领域中,知识图谱与大模型是两个至关重要的概念,它们各自拥有独特的优势和应用场景,同时又相互补充,共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深
    的头像 发表于 07-10 11:39 1037次阅读

    中国生成式人工智能专利数量傲视群雄

    在全球科技创新的浪潮中,生成式人工智能(Generative AI)作为一股不可忽视的力量,正以前所未有的速度重塑着多个行业的面貌。近日,世界知识产权组织(WIPO)发布的《世界知识产权组织生成式
    的头像 发表于 07-04 15:39 351次阅读

    大模型应用之路:从提示词到通用人工智能(AGI)

    铺平道路。 基于AI大模型的推理功能,结合了RAG(检索增强生成)、智能体(Agent)、知识库、向量数据库、知识图谱等先进技术,我们向实现真正的AGI(通用人工智能)迈出了重要步伐。
    的头像 发表于 06-14 10:20 2191次阅读
    大模型应用之路:从提示词到通用<b class='flag-5'>人工智能</b>(AGI)

    嵌入式人工智能的就业方向有哪些?

    于工业、农业、医疗、城市建设、金融、航天军工等多个领域。在新时代发展背景下,嵌入式人工智能已是大势所趋,成为当前最热门的AI商业化途径之一。
    发表于 02-26 10:17

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1208次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。
    的头像 发表于 01-08 10:57 947次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势