人工智能浪潮中的计算社会科学

电子说

1.3w人已加入

描述

引言

人工智能的发展。目前,学术界公认人工智能的提出肇始于1956年的达特茅斯会议。经历了60余年沉浮,人工智能发展再攀高峰。从计算模式的角度来思考人工智能发展过程,可以发现,计算机模式几乎每15年就会发生一次重大变革。1950年,首台计算机出现;1965年,大型机进入人们视野;1980年,个人电脑开始普及;1995年,互联网创造了“地球村”;2010年,云计算与大数据重新定义数据价值;2015年,“智能万物互联”的概念被提出。在此期间,人工智能于1956年被提出,并以“符号主义”的形式走进人们视野;20世纪80年代,“联结主义”展示出强大生命力;在互联网时代,统计学习理论得到发展,诞生了SVM等经典模型。但是,直至云计算与大数据缔造的大数据时代,人工智能才真正开始应用于实践,形成了人工智能潮流。这与前期的理论积累和以深度学习为代表的人工智能算法、大数据时代的数据规模以及云计算带来的强大算力密不可分。

那么,到底什么是人工智能呢?提出“机器学习(machine learning)”一词的Arthur L. Smuel认为,[1]人工智能旨在使机器通过学习人的智能来解决复杂问题。所以,人工智能具有了解智能和实践智能两层内涵。其中,前者指真正了解人类解决复杂问题的智能过程;后者指机器能够重现大脑在给定场景下的活动。由于前者,人工智能是一个典型的交叉学科问题,具体涉及计算机科学、数学、神经科学、认知学等。而依据后者,即机器重现大脑的程度,可以将人工智能的发展分为弱人工智能、强人工智能和超人工智能三个阶段。其中,弱人工智能可以在特定场景下完成基础的角色性任务,如根据图片对失踪儿童本人进行识别;强人工智能则用于实现随场景迁移的智能,如根据失踪儿童照片找到其父母;而超人工智能则指超越于人类的智能。目前,强人工智能的应用并不常见,而超人工智能尚未真正出现,所以,我们正处于弱人工智能阶段。因此,本文的人工智能指“弱人工智能”。

虽然人工智能历经沉浮,迎来了新的黄金发展期。但是其本身存在“实现智能过程非智能”的问题,即实现机器学习等人工智能的手段依旧大量依靠人工。在机器学习系统中,[2]真正的机器学习代码仅占很小一部分,而大部分工作都消耗在环境配置、数据采集、数据验证、机器学习资源管理、特征提取、过程管理工具、分析工具、服务基础设施和监测上。而且随着相关应用的落地,人们也会产生一些疑问:人工智能可以学习人的显性知识,但应当如何学习常识等隐性知识以及知识抽象等能力呢?人工智能收集的个人信息可以应用于公安系统,从而保障人身安全,但同时个人隐私又应当如何保护呢?因此,政府不仅通过“国家新一代人工智能开放创新平台白名单”等形式大力鼓励相关技术研发,也出台了《新一代人工智能治理原则》等进一步督促其健康发展。在人工智能潮流的背景之下,人们的生产和生活方式发生了很大变化,那么,计算社会科学又会迎来什么样的挑战和机遇呢?

计算社会科学的发展。后工业化时代的复杂社会问题催生了计算社会科学的诞生。正是其所在的大数据时代使“我们的社会开启了一场可与印刷和互联网带来的革命相比肩的伟大旅程”。[3]2009年,David Lazer等多位科学家发表了题为《计算社会科学》(Computational Social Science[4])的文章,成为计算社会科学这一交叉学科诞生的标志。2012年,欧洲学者Conte R.等人发表的《计算社会科学宣言》(Manifesto of Computational Social Science[5])更是计算社会科学领域的“宣言”。

计算社会科学[6]是一种基于系统科学、网络科学、复杂性科学等科学理论,利用人工智能、数据挖掘等计算科学方法,以社会、经济等领域大数据作为研究对象,交叉融合各学科理论,为人类更深入地认识社会、改造社会,解决政治、经济、文化等领域复杂社会问题的理论和方法论体系。简而言之,计算社会科学是一门基于社会学原理,使用自然科学和信息科学工具,揭示社会发展规律,从而解决社会问题的学科。

计算社会科学是复杂社会背景和大数据时代共同催生的产物。但在大数据和互联网的春风下,数据产生方式以及数据本身的特征将进一步发生转变,未来二三十年的人类社会将从大数据时代过渡到万物互联时代,从而奠定智能社会的重要技术基础。那么,计算社会科学将面临哪些挑战?又该如何实现这些挑战的机遇化?为了充分利用万物互联时代的技术基础,计算社会科学又将如何变革?

人工智能与计算社会科学的相辅相成。毫无疑问,进一步发展的人工智能将成为未来智能社会科技的重要组成。那么,在当前的人工智能潮流中,计算社会科学应当以什么姿态面对智能,又应当如何突破自身限制,继续向前发展?在回答这个问题之前,我们首先需要明确人工智能与计算社会科学之间的关系。

人工智能将成为计算社会科学的重要研究工具。如上所述,计算社会科学是一门典型的交叉学科:从理论基础、研究对象、研究问题,到研究工具,其每个环节都受益于其他学科的发展。计算社会科学扎根于传统的社会学理论,基于大数据时代的丰富采样和分析手段来研究和解决问题。人工智能的出现,不仅丰富了计算社会科学的分析手段,还增强了其预测能力。如基于文本等内容的网络舆情分析就是人工智能推动计算社会科学研究的典型案例。

计算社会科学将推动人工智能“了解智能”。如前所述,人工智能的提出旨在使机器通过学习人类在特定场景下的智能来解决复杂问题,具体包括了解智能和实践智能两方面。目前的人工智能仅处于弱人工智能阶段。它面临隐性知识无法得知和抽象能力无法学习等问题,也无法像人类那样进行感性决策。而这些问题的关键在于机器对世界的感知和理解无法达到人类水平。因此,要真正“了解智能”,就需要对人及其思维展开进一步研究。而计算社会科学正是一门研究人及其群体的典型学科。因此,计算社会科学将推动人工智能“了解智能”。

经过上述分析,可以发现,无论是人工智能还是计算社会科学,它们都存在进一步发展的阻力或障碍。但是,人工智能可以成为计算社会科学的重要研究工具,而计算社会科学也将推动人工智能“了解智能”。那么,如果将二者结合起来,是否会遇到新的挑战?又应当如何面对这些挑战呢?

挑战

由于彼此之间相辅相成,因此可以考虑将人工智能作为计算社会科学的重要研究工具之一,而计算社会科学得到的相关结论也可以帮助人工智能在实践智能之前“了解智能”。那么,二者结合起来之后是否会将各自的问题放大,甚至产生新的问题呢?按照人工智能的实践过程,下面将根据问题产生背景将人工智能浪潮中计算社会科学所面对的挑战分为四层,即数据层、算法层、应用层,以及三者共同构成的生态系统。

以隐私为核心的数据层挑战。数据既是人工智能得以广泛应用的重要基础,也是计算社会科学诞生的背景和驱动力所在。基于数据从产生到应用的生命周期来看,数据层将面对数据收集时的垄断问题、数据分析和利用之前的融合问题,以及贯穿整个数据生命周期的隐私问题。

首先是数据垄断。基于约3000万用户的APP使用数据、162个维度的用户画像,以及近30万个APP信息,包括名称、类别、开发者、版本、权限、大小和评分等,我们得到了数据拥有者与收集者的隐私风险指数,并通过群体分析、组合分析和成因分析得到了区域、人群、行为等多角度的隐私风险分析结果。其中,数据收集者的隐私风险量化结果表明,10%的收集者获取了99%的权限数据,形成了远超传统“二八定律”的数据垄断。而且这些数据垄断者之间还在进行着类似于2017年顺丰菜鸟之争的数据争夺战。如何评价现有的数据垄断和数据争夺战?真正产生这些数据的用户又应当如何维护自己的权益?

其次是大数据融合。从PC时代到互联网时代,再到大数据时代,数据产生方式从被动到主动再到自动,当前数据也呈现出多源异构、分布广泛和动态演化等特征,数据的关联、交叉和融合更为迫切。价值挖掘是大数据应用的重要驱动力。而“大数据价值链”[7]则反映了大数据所含价值的挖掘过程。具体而言,其是一个“离散数据集成化数据知识理解普适机理凝练解释客观现象、回归自然”的螺旋式上升过程,每个环节都是大数据的一次增值。那具体应当如何实现呢?

最后是数据隐私。数据获取、分析和运用中,必然会带来隐私问题。与传统隐私问题相比,大数据隐私的来源和波及范围更广,相应产生的影响也更为深远,尤其是个人隐私。其目前面临的问题与20世纪臭名昭著的塔斯基吉梅毒实验十分相似,都表现出BCD特征。第一,Beyond Users,即凌驾于用户之上的目标。大数据收集者不仅将数据用于改善用户体验,也通过数据交易提高收益。而梅毒实验工作人员不惜以被试身体健康为代价,收集用于推动梅毒研究的实验数据。第二,Cheap Service,即为用户提供廉价服务。大数据收集者通过为用户提供廉价的产品来获取更为昂贵的个人数据。而梅毒实验工作人员则通过为被试提供廉价的食物来获取更为昂贵的实验数据。第三,Deceptive Means,即通过欺骗性手段挖掘更多用户价值。大数据收集者可能会向用户申请其提供服务并不需要的权限。而梅毒实验工作人员为进一步获取实验数据,声称(实际并没有)为被试提供医疗服务。

以公平为核心的算法层挑战。算法是人工智能的核心所在,那么算法本身有没有问题呢?就算法的提出、训练、测试和最终应用来看,公平问题较为突出。心理学家亚当斯的公平理论认为,人们对公平的感知取决于社会或历史比较;社会学领域强调同工同酬;而哲学家罗尔斯则寄希望于通过“无知之幕”下的社会契约论来实现公平。《新一代人工智能治理原则》中将“公平公正”列为原则之一,指出人工智能发展应促进公平公正,保障利益相关者的权益,促进机会均等。通过持续提高技术水平,改善管理方式,在数据获取、算法设计、技术开发、产品研发和应用过程中消除偏见和歧视。

笔者认为人工智能算法中的公平主要包括两个涵义:第一,面向数据集公平,即在算法相同的前提下,基于相似的数据集可以训练出相似的模型。第二,面向数据个体公平,即对于训练好的模型而言,输入相似的数据个体可以得到相似的输出结果。但实际应用并非如此。由于现实社会的复杂性,人天生带有偏见,而这些偏见会被有意识或无意识地带入训练数据标注中;再加上训练数据规模和质量的差异,很容易导致测试结果的不同;在这些因素的共同作用下,最终模型就会带有偏见,进而将这种偏见体现在实践应用的每个数据个体上。因此,理想情况下,公平的人工智能可以足够反映客观现实,即面向数据集公平;同时,也可以做到纠正主观偏见,即面向数据个体公平。

以研究方法论为核心的应用层挑战。人工智能可以提高计算社会科学的数据挖掘和预测等能力,但其研究方法论在根本上决定了这个学科能够走多远。计算社会科学固然可以推动人工智能对人类智能的“了解”,但最终效果依旧有赖于计算社会科学本身对人类的认知。因此,要真正发挥人工智能与计算社会科学的综合效应,应当从计算社会科学的研究方法论入手。

计算社会科学是一门典型的交叉学科,它以前所未有的广度、深度和规模大量收集和分析数据,并通过计算建模的方法实现社会—技术系统的行为预测,是科学研究范式从实验科学、理论科学发展到计算科学、探索科学的产物。诚然,虽来自于自然科学,这四大科学研究范式在提出之后却同时推动了计算社会科学的发展。但是,计算社会科学和自然科学的研究对象具有本质差异,前者面向人,后者面向物。从学科分类体系来看,计算社会科学是总体逻辑思维,自然科学是类型逻辑思维。总体逻辑思维关注独立各异个案的整体分布,其认为变异是社会现实的本质,研究工作是从变异中寻求规律,以经验为基础,以量化为导向地去概括总体变异的系统模式。这种量化无法挖掘出普适规律来描述和解释所有个体行为。类型逻辑思维则认为应该重点关注典型对象,只要理解了典型对象的规律,就可以将其概括并推广到个体和具体问题。因此,实证主义等社会科学向自然科学看齐的研究方法并不能从根本上适应社会科学。计算社会科学需要在方法论上进行革新。

以数据治理为核心的生态系统挑战。在人工智能与计算社会科学相辅相成的背景下,我们称数据层、算法层和应用层均存在的问题为生态系统的大数据治理挑战。“治理”(Governance)一词最早起源于拉丁文“掌舵”(steering),起初用于“政府治理”。后受到企业认同和重视,出现了“企业治理”。随着IT资源和数据资源的不断丰富,出现了“IT治理”和“数据治理”的概念。而“大数据治理”则是“数据治理”的延伸,同时又具有其独特性。Sunil Sores认为,[8]“大数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策”。但正如信息安全领域经典的“七分靠管理,三分靠技术”所言,笔者认为,“大数据治理”不应仅具有政策内涵,还应包括相关技术手段。这里的大数据治理挑战具体包括数据获取,数据发布,数据权利、责任、角色和风险,利益相关者,以及外部影响五个方面。[9]

第一,即使是在大数据时代,数据也并非无源之水。数据获取需要大量社会资源的持续投入。第二,数据既没有专利完善的保护措施,也没有论文发表的成熟机制,因此在发布方面存在数据投资、保存和应用的制度和技术问题。第三,当数据成为重要资源,产学研政各界都将开始围绕数据展开价值挖掘活动。但如何将数据所有权、使用权、许可权等权利,数据维护和监督等责任,以及数据泄露和不完整等带来的一系列风险分配给不同角色却依旧悬而未决。第四,数据的利益相关者包括企业、高校、科研机构、学者、学生、图书馆、博物馆、出版商、资助机构以及政府单位等。如何在不同利益相关者之间分配数据采集和繁杂的数据监护[10]任务,并进一步构建大数据时代的数据人才基础设施?第五,从产生到投入实践,数据面临的外部影响主要包括经济与数据价值、数据产权和伦理观三个方面的问题。我们又应当如何缓解或解决这些新问题呢?

综上,将人工智能应用于计算社会科学,并同时实现计算社会科学反哺人工智能,将会面临数据层的数据垄断、大数据融合和数据隐私问题,算法层的公平问题,应用层的计算社会科学研究方法论问题,以及整个生态系统都可能存在的大数据治理问题。如何克服这些挑战,从而真正发挥二者相辅相成的协同作用呢?

机遇

人工智能浪潮中的计算社会科学纵然面临众多挑战,但同时,相关技术的发展和制度的完善也为二者的协同进步奠定了基础。下面将分别从数据层、算法层、应用层和生态系统四个方面阐释解决方案。

基于隐私保护的数据层解决方案。作为计算社会科学和人工智能的基础,数据层面临的挑战主要包括数据垄断甚至争夺、大数据融合和数据隐私三方面。针对这些问题,笔者建议从数据共享,大数据融合,以及隐私保护技术、联邦学习和隐私保护制度着手进行现状改善。

首先是针对数据垄断的数据共享。从历史角度来看,数据已经从“About Enterprise”转变为“About People”,从而进一步扩大了数据生态的马太效应,以至于目前10%的数据收集者掌握着用户99%的权限数据。导致这种现状的另一原因是数据收集者之间的数据收集方法、云计算技术水平、分析方法,以及经济实力等方面存在较大差异。可从规范数据收集和鼓励数据共享两个方面入手缓解该问题。规范数据收集将在隐私保护部分做进一步解释,这里重点阐述鼓励数据共享。一方面,组建数据共享中心。传统意义上,数据共享意味着数据在不同使用者之间的物理拷贝和流通。但是,这种共享方式带来的安全问题较多;且数据存储和计算等成本非常高,经济实力较弱的数据收集者依旧无法承担。因此,可以考虑组建数据共享中心,其成员不仅可以使用中心的数据,也可以使用相关基础设施和计算资源。另一方面,完善数据共享相关制度。目前,国内已组建了贵州、上海等大数据交易中心,并推出了“数+12”战略的数据交易生态等。不过,还应当针对掌握大量用户数据的企业出台相关数据共享的激励和合规政策。

其次是大数据融合相关技术。单个数据源的价值有限,要进一步实现价值提升,就必须进行大数据融合。其独特性与问题包括:第一,割裂的多源异构数据,如生物领域的基因组、蛋白质和文献等;第二,数据规模与数据价值之间的矛盾,即相关数据越多,可挖掘的知识越多,数据价值就越高,但相应数据挖掘的难度也会更大;第三,跨媒体、跨语言的关联,如图片、音视频与文本数据的关联;第四,实体和关系的动态演化,如学者更换其所在单位;第五,知识的隐含性,如学者之间的“合作”关系可能暗含“师生”关系。作为大数据背景下的数据处理手段,“大数据融合”[11]用于从大数据中发现知识,并按照知识的语义逻辑关联融合形成更接近人类思维的知识,是一种数据融合与知识融合双环驱动的大数据价值发现方法。其中数据融合包括模式对齐、实体链接、数据一致性和数据溯源;而知识融合则指知识抽象和建模、关系推理、深度知识发现,以及普适机理的剖析和归纳。

最后是数据隐私问题。数据从“About Enterprise”转变为“About People”带来的第一个问题就是隐私泄露。目前,可以从技术和制度两方面进行隐私保护。技术上主要包括基于扰动的隐私保护技术、基于密码学的隐私保护技术和基于分布式训练的联邦学习技术。第一,基于扰动的隐私保护技术指差分隐私、K匿名等,其计算效率高,目前已有成熟应用。但是,这种隐私保护技术与决策可解释性之间存在矛盾。一方面,为了保证决策可解释性,就必须保证数据的准确性,这样很容易出现隐私泄露问题;另一方面,要保护隐私,就一定会导致数据准确性降低,决策可解释性随之降低。因此,如何在大数据隐私和决策可解释性之间达到良好平衡,是一个亟待解决的问题。第二,基于密码学的隐私保护技术指同态加密、安全多方计算等,其安全性较高,数据可恢复,但效率较低,无法广泛应用。第三,基于分布式训练的联邦学习技术,其旨在通过共享模型参数而非具体数据来完成机器学习训练过程。相比于集中训练方式,联邦学习更适用于隐私保护场景,但其隐私攻击既可能来自于服务端,也可能来自于其他恶意设备。而且目前仍处于起步阶段,依旧存在通信带宽受限、模型难收敛、强依赖于云服务等问题。

从制度上来看,国内外都已经出台了一系列隐私保护法律法规与条例。自2018年5月1日起,我国开始实施《信息安全技术个人信息安全规范》;2018年5月25日,欧盟推出《通用数据保护条例》(General Data Protection Regulation,GDPR);2018年11月2日,美国参议院公布新的隐私立法草案;2019年4月16日,旧金山通过了《停止秘密监视》条例的修订;2019年5月28日,国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》;2019年6月17日,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,并强调人工智能发展应尊重和保护个人隐私。但是,隐私保护的美好愿景和现实生活中的大规模数据泄露之间存在根本矛盾,如Facebook数据泄露等事件一再出现。在这样大规模数据泄露的背景之下,实现隐私保护是否真的可能?在未来会不会演变为无隐私(No Privacy)?

基于数据透明的算法层解决方案。根据前述分析可以发现,虽然算法公平问题最终表现在决策阶段,但成因可能在数据标注、模型训练和测试等阶段。因此,要解决公平问题,就需要从数据和算法两方面入手。相应的计算机技术是数据透明。数据透明有广义和狭义之分,广义的数据透明包括狭义的数据透明和算法透明。其中,前者[12]指有效获取数据在产生、处理及决策过程中所涉信息的能力;后者则指算法可解释,即数据收集前,用户需考虑个人数据将作何种用途;数据收集后,第三方需考虑数据来源的真实性;决策阶段,要重点关注决策过程的可解释性。

由于保证了数据利益相关者对数据的知情权等权利,以数据透明为基础,可以建立和完善数据获取和应用的问责机制、实现用户控制。以数据生命周期为标准,可以将数据透明分为获取透明、流通透明、使用透明和删除透明。其中,获取透明指基于访问控制的数据收集;流通透明指基于区块链的数据共享和交易;使用透明包括算法透明和可验证性计算;而删除透明则包含了覆盖删除和密码学删除。因此,当大规模数据泄露不断出现,隐私保护已不再现实,就可以使用数据透明来保证数据的合理运用。

就算法透明而言,《新一代人工智能治理原则——发展负责任的人工智能》中提出了“安全可控”原则,即人工智能系统应不断提升透明性、可解释性、可靠性、可控性,逐步实现可审核、可监督、可追溯、可信赖。

综上,建立数据透明的治理体系是解决人工智能时代隐私、效率和公平的关键,中国应该先行一步。

基于新型研究范式的应用层解决方案。计算社会科学从诞生到进一步发展的成长过程中曾受惠于四大科学研究范式。但是,由于与自然科学在研究对象、逻辑思维以及现实复杂性等方面存在本质区别,其面临的方法论挑战日益严峻。当下的计算社会科学能否实现新一轮的方法论革新,并将其上升为新型科学研究范式,实现科学研究范式转移,进而惠及其他交叉学科,乃至自然科学?答案是肯定的。后大数据时代的计算模式将成为未来社会的重要基础设施。而智能万物互联的信息技术将以更加丰富的方式描述现实世界,从而推动社会学等领域的专家学者更加了解人类赖以生存的社会系统。同时,中国的城市化、网络化等发展趋势与万物互联天然契合,将有望成为科学研究范式转移实现的沃土。当技术和社会背景同时发生变革,诞生于二者交织背景下的计算社会科学应当如何化挑战为机遇?

一方面,计算社会科学应当充分把握与生俱来的技术和社会优势,在“技术推动社会发展,社会丰富技术内涵”的相辅相成机制中进一步向前迈进。在未来万物互联和以城市化为中心的中国社会,社会科学将不再一味地依赖信息技术的发展。这里以万物互联的重要技术基础5G为例进行阐释。近来,5G技术的发展及其作用已经被过分夸大,其未来发展不是带宽问题,而是内涵问题。可是,计算机信息技术只能满足带宽需求,因此,只有依靠计算社会科学,5G的内涵才能进一步得以丰富。

另一方面,计算社会科学不应一味向自然科学看齐,而要基于对现实世界的准确描述,构建自己的理论框架,形成自己的方法论。根据前述内容,我们有理由相信如果充分利用万物互联时代的优势,同时从社会背景和现实需求出发进一步丰富万物互联的技术内涵,进而使二者相互促进,以社会科学家为代表的学者们可能提出真正植根于社会科学的第五科学研究范式。新的研究范式将以大量社会科学活动为积淀,旨在挖掘新社会需求,丰富新技术内涵,在促进交叉学科研究的同时,推动社会前进。

基于数据治理的生态系统解决方案。历史地看,数据发展共有两条主线。第一条是Data about Enterprise,数据库、数据仓库与数据集成都是典型代表;进入大数据时代之后,Data about People成为第二条主线,数据思维、数据智能与数据生态等名词层出不穷。现有数据生态的特殊性决定了数据确权、定价、交易等不能解决数据垄断、隐私和公平等问题。

人工智能和计算社会科学均因数据而蓬勃发展。正如在“大数据融合”挑战中所阐释的那样,要真正从多元异构、价值不一的数据中提取信息,并进一步转化为知识,就需在传统数据分析工具的基础上进一步改进,运用大数据融合相关技术。但数据从产生到处理,到存储,到进一步价值提升,再到最终应用等都会面临数据产权等一系列相关问题。而“数据治理”则旨在解决这一系列数据挑战。

为了在充分挖掘数据价值的同时,尊重数据相关权利,从而促进科学研究进步,推动社会向前发展,在产学研政企等利益相关者之间建立合作共赢的数据共享模式、制定合理的规章制度非常必要。同时,需要推动相关技术向前发展。惟其如此,才能在降低信息泄露风险、维护公平的同时,又保留数据价值。

总之,人工智能将成为计算社会科学的重要研究工具;同时,计算社会科学也将推动人工智能“了解智能”。因此,计算社会科学应当在人工智能浪潮中充分提升其数据挖掘和预测能力;同时也可以为人工智能的发展贡献力量。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分