技术干货集中营
直播中

张宝

6年用户 111经验值
擅长:嵌入式技术
私信 关注

NLPIR语义分析是对自然语言处理的完美理解

  随着计算机的日益普及和互联网的迅猛发展,社会的信息化程度越来越高,计算机的使用也越来越广泛,如何清晰、高效、简洁的同计算机交流,成为各界人士共同关注的焦点,自然语言理解也被人们寄予高度的期待。
  人类自然语言通常以词为基本构成单位,进而构成句子,再由句子形成篇章。篇章的语义由篇章中包含的所有句子的语义综合而成,而句子的语义又由句中的词语语义及一定的语法所确定;作为句子和篇章的基本构成单位,词语具有特定的语义和内涵。在词语层次上,词语语义分析意味着词语的内涵分析、词语之间的语义相似度或相关度分析,这是句子分析和篇章语义分析的基础,也是信息抽取、机器翻译等应用领 域的基础问题。一个句子,通常是按照特定的语义规则对若干词语的一个有序排列。为此,句子的语义分析需要综合词语语义和相关语义规则分析,它是篇章语义分析的基础,也是自动问答系统等领域的基础研究课题。篇章级别的语义分析,意味着对文本进行主题、类别等语义信息的识别,实现对大规模文本集合的有效管理与挖掘。
  语义是指信息包含的概念和意义。语义不仅表述事物本质,还表述事物之间的因果、上下位、施事等各种逻辑关系。因此,语义是对事物的描述和逻辑表示。语义分析就是对信息所包含的语义的识别,并建立一种计算模型,使其能够像人那样理解自然语言。语义分析是自然语言理解的根本问题,它在自然语言处理、信息检索、信息过滤、信息分类、语义挖掘等领域有着广泛的应用。在互联网时代,面对海量的信息资源,要想准确地进行信息抽取,检索所需信息、挖掘潜在的信息价值、提供智能的知识服务,都离不开面向机器理解的语义分析。尤其在大数据环境下,语义分析的地位越来越凸显出来。
  按照多数文献的观点首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。其次,句法分析通过使句子成分特征化来分析句子结构特征,通过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的作用,并以一定结构来表达诸如从属关系、成分关系等,目的是判定句子中各种结构性成分。第三,为了理解一个提问,一般还需要更多的语义和语用知识来帮助理解句子的意思,通过分析找出词义、结构意义及其结合意义,从而确定句子所表达的真正含义,而语义信息的标记需要包含概念完全集与关系图的支持,需要对句法成分做出细致的语义分类,它一般应包括语言层面(即反映语言表面现象的知识,如同义词关系、层次关系等)、本体论层面(描述概念之间复杂的语义关系)、常识层面等。虽然这项工作浩繁,但目前已经取得了一些初步成果。最后,篇章分析用于对多个语句、段落之间在结构或者语义上的相互关系进行分析。
  北京理工大学大数据实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等功能。
  在大数据时代,对海量文本信息进行有效的语义分析已经是自然语言处理、信息检索、信息分类、信息过滤、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题,它影响着上层信息服务与信息共享的质量和水平。NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。

更多回帖

发帖
×
20
完善资料,
赚取积分