本书主要涉及数据工程、人工智能算法原理,大数据平台技术、人工智能算法在大数据平台上的实现、人工智能算法的应用与实践。全书共 7 章。第 1 章是大数据与人工智能的历史、应用;第 2 章是数据工程;第 3 章是人工智能基础算法的原理介绍;第 4 章是大数据平台的介绍;第 5 章以第 3 章中的几种算法为例,介绍了它们是如何在大数据平台上分布式实现的;第 6 章是当前热门的深度学习技术的介绍;第 7 章是实践。本书可作为希望快速了解和入门本领域知识的本科生、研究生的参考书,也可供互联网领域中对人工智能算法感兴趣的工程技术人员参考使用。
当人类开始发明计算机的时候,就已经在思考如何让计算机获取“智能”。如今,伴随着社会的日益数字化,人类社会进入大数据时代,海量的数据和云计算使人工智能进入一个快速发展期。作者在平时科研与教学中发现,许多学生对人工智能与大数据领域表现出了极大的兴趣。市面上虽然有许多优秀的相关类型的图书,然而,它们大部分都假设读者已经具备了很高的数学基础,这是许多学生尤其是非数学系的本科生所不具备的。除此之外,有的图书对细节介绍非常详尽,这使初学者容易陷入其中而忽视了整体。有的图书则完全介绍理论,也容易导致初学者不会学以致用。因此,作者萌生了写一本真正适合初学者的大数据与人工智能图书的想法,希望能指引更多有志于研究该领域的学习者少走一些弯路,顺利迈入人工智能的大门。全书共 7 章,大体可分为 4 个部分。第一部分是第 1~2 章,介绍人工智能和大数据的基本知识;第二部分是第 3~4 章,介绍一些最经典而常用的机器学习算法和常用的大数据处理平台;第三部分是第 5~6 章,介绍一些进阶知识,包括一些机器学习算法的并行化实现和深度学习的内容;第四部分即第 7 章是实践部分,用案例来学习前面学习的算法是如何应用在实际中的。其中,第三部分的两章相对独立,读者可以根据自己的兴趣和时间情况选择使用。作者认为,对于初学者而言,应该适当增加学习的广度而降低学习的深度。本书对数据工程、机器学习、大数据以及机器学习的并行化实现、深度学习均予以介绍,已经涵盖了大部分人工智能的基础性内容。需要指出的是,理论上机器学习只是人工智能的一种解决方案。然而,近年来,机器学习已经在人工智能领域中占据了绝对主导地位。因此本书作为一本旨在服务初学者的图书,并不会区分它们。作者在本书中试图尽可能地少使用数学知识,对于一些不可避免的部分,力求展现其中的精华,同时亦在本书的最后介绍了一些确实不可避免的线性代数以及概率论知识。作者在保证广度和淡化深度的同时,避免了罗列知识,而是有机地将各方面知识串接起来。对于应用实践部分,一些基础性编程语言的掌握是必不可少的,作者在附录中介绍了 Java 和 Python,供有需要的读者阅读。
随着移动通信技术和智能终端设备的飞速发展,全球数据通信总量也逐年激增。一方面,由于数据产生方式发生了从手工生产到自动化生产的改变,人类为了实现对信息的全量化收集,大量使用传感器(目前全球有 3 B~5 B 个传感器),这些传感器 24 h 都在产生数据,加快了信息的爆发式增长;另一方面,由于人类活动越来越离不开数据,人类的日常生活已经与数据成为密不可分的整体。伴随着移动智能设备的普及(图 1-1 中的数据显示了近几年全球网络用户数量的变化),移动端的数据已经逐步增长并成为最主要的数据来源:社交通信中产生的文字、语音、图像、视频,生活应用中的位置信息、查询请求信息,娱乐购物产生的产品介绍信息、订单请求信息等无时无刻不在人们周围产生并传递。举例来说,Youtube 上每天会有来自全球 28.8 k 小时的视频上传量,Twitter 上每天大概会新增 50 M 条信息,亚马逊每天产生 6.3 M 笔订单……欧洲粒子物理研究所的大型强子对撞机,每秒产生的原始数据量高达 40 TB。2000 年斯隆数字巡天项目(SDSS,Sloan Digital Sky Survey)启动的时候,位于墨西哥州的望远镜在短短几周内收集到的数据比之前天文学历史上收集的数据总和还要多。从科研领域到医疗卫生领域,从银行业到互联网行业,各行各业都面临着需要解决爆发式增长的数据量的难题。
随着 AI 技术的发展,现如今几乎各种技术的发展都涉及人工智能技术,人工智能技术已经渗透到许多领域,应用范围主要包括以下 9 个方面。(1)符号计算计算机最主要的用途之一就是科学计算,科学计算可分为两类:一类是纯数值的计算,通常是对函数、公式的求值;另一类是符号计算,也称代数运算,这种运算是对符号进行运算,并且符号可以代表整数、有理数、实数和复数,也可以代表多项式、函数、集合等。(2)模式识别模式识别就是通过计算机对数据样本进行特征提取,并用数学方法来研究模式的自动处理和判读。这里常说的模式是指文字、语音、生物特征、数字水印等环境与客体的结合体。(3)机器翻译机器翻译是通过计算机把一种自然语言转换成另一种自然语言的过程,用以完成这一过程的软件系统叫作机器翻译系统。它是计算语言学(Computational Linguistics )的一个分支,涉及计算机、认知科学、语言学、信息论等学科,是人工智能的终极目标之一,具有重要的科学研究价值。(4)机器学习机器学习是机器具有智能的重要标志,同时也是机器获取知识的根本途径。机器学习是一个难度较大的研究领域,它与认知科学、神经心理学、逻辑学等学科都有着密切的联系,并对人工智能的其他分支,如专家系统、自然语言理解、自动推理、智能机器人、计算机视觉、计算机听觉等方面,也会起到重要的推动作用。(5)逻辑推理与定理证明逻辑推理是人工智能研究中最持久的领域之一,其中特别重要的是要找到一些方法,只把注意力集中在一个大型数据库中的有关事实上,留意可信的证明,并在出现新信息时适时修正这些证明。(6)自然语言处理自然语言的处理是人工智能技术应用于实际领域的典型范例,经过多年艰苦努力,这一领域已获得了大量令人瞩目的成果。目前该领域的主要课题是:计算机系统如何以主题和对话情境为基础,注重大量的常识——世界知识和期望作用,生成和理解自然语言。(7)分布式人工智能分布式人工智能在 20 世纪 70 年代后期出现,是人工智能研究的一个重要分支。分布式人工智能系统一般由多个智能体(Agent)组成,每一个 Agent 又是一个半自治系统,Agent 之间以及 Agent 与环境之间进行并发活动,并通过交互来完成问题求解。(8)计算机视觉计算机视觉主要研究的是使计算机具有通过二维图像认知三维环境信息的能力,这种能力不仅包括对三维环境中物体形状、位置、姿态、运动等几何信息的感知,而且还包括对这些信息的描述、存储、识别与理解。(9)专家系统专家系统是目前人工智能中最活跃、最有成效的一个研究领域,它是一种具有特定领域内大量知识与经验的程序系统。人类专家因其丰富的知识,能够高效、快速地解决相应领域的众多问题,基于这一事实,给计算机程序学习并使其灵活运用这些知识,也就能解决人类专家所解决的问题,而且能帮助人类专家发现推理过程中出现的差错。
人工智能已经发展了 60 多年,虽然在研究解释和模拟人类智能、智能行为及其规律这一总目标来说,已经取得了很大的进展。但从整体发展情况来看,人工智能发展过程曲折,而且还面临着不少难题,主要集中在以下几个方面。(1)机器翻译机器翻译遇到的最主要的问题是歧义性问题。构成句子的单词和歧义性问题一直是自然语言理解(NLU,Natural Language Understanding)中的一大难关。不同的使用场景,句子的含义也可能天差地别。所以要想消除歧义,正确解释句子语意必须结合具体语境。但现有的翻译方式通常都是将句子甚至词组作为理解单元,翻译结果往往忽视具体语境。另外,即使对原文语意理解到位,如何将其正确地表示成另一种语言,也是一个难题。现有的 NLU 系统无法随着时间增长而提高解读能力,学习深度不够。(2)自动定理证明自动定理证明需要机器拥有一套智能系统,不仅能够对现有条件进行合理演绎,并且能够做出正确判定。这一领域的代表性工作是 1965 年鲁宾孙提出的归结原理。归结原理虽然简单易行,但它所采用的方法是演绎,而这种形式上的演绎与人类自然演绎推理方法是截然不同的。基于归结原理的演绎推理要求把逻辑公式转化为子句集合,从而丧失了其固有的逻辑蕴含语义。(3)模式识别虽然使用计算机进行模式识别的研究与开发已取得大量成果,有的已成为产品投入实际应用,但是它的理论和方法与人的感官识别机制是全然不同的。一方面,人的识别手段、形象思维能力是任何最先进的计算机识别系统望尘莫及的;另一方面,在现实世界中,生活并不是一项结构严密的任务,一般的动物都能轻而易举地对付,但机器不会,这并不是说它们永远不会,而是说目前不会。技术的发展总是超乎人们的想象,要准确地预测人工智能的未来是不可能的。但是,从目前的一些前瞻性研究可以看出,未来人工智能可能会向以下几个方面发展:模糊处理、并行化、神经网络和机器情感。
人工智能作为一个整体的研究才刚刚开始,离其预定的目标还很遥远,但人工智能在某些方面将会有大的突破。(1)自动推理是人工智能最经典的研究分支,其基本理论是人工智能其他分支的共同基础。一直以来,自动推理都是人工智能研究的最热门内容之一,其中知识系统的动态演化特征及可行性推理的研究是最新的热点,很有可能取得大的突破。(2)机器学习的研究取得长足的发展。许多新的学习方法相继问世并获得了成功的应用,如增强学习(Reinforcement Learning)算法等。也应看到,现有的方法在处理在线学习方面尚不够有效,寻求一种新的方法以解决移动机器人、自主 agent、智能信息存取等研究中的在线学习问题是研究人员共同关心的问题,相信不久会在这些方面取得突破。(3)自然语言处理是 AI 技术应用于实际领域的典型范例,经过 AI 研究人员的艰苦努力,这一领域已获得了大量令人瞩目的理论与应用成果。许多产品已经进入了众多领域。智能信息检索技术在 Internet 技术的影响下,近年来迅猛发展,已经成为 AI 的一个独立研究分支。由于信息获取与精化技术已成为当代计算机科学与技术研究中迫切需要研究的课题,将 AI 技术应用于这一领域的研究是人工智能走向应用的契机与突破口。从近年的人工智能发展来看,这方面的研究已取得了可喜的进展。人工智能一直处于计算机技术的前沿,其研究的理论和发现在很大程度上将决定计算机技术的发展方向。如今,已经有很多人工智能的研究成果进入人们的日常生活。未来,人工智能技术的发展将会给人们的生活、工作和教育等带来更大的影响
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !