0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于多视图协作学习的人岗匹配研究论文提要

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-05 09:32 次阅读

近日,第29届国际计算机学会信息与知识管理大会(CIKM 2020)在线上召开,CIKM是CCF推荐的B类国际学术会议,是信息检索和数据挖掘领域顶级学术会议之一。

本届CIKM会议共收到920篇论文投稿,其中录用论文193篇,录取率约为21%。 而在众多论文当中,一篇BOSS直聘和中国人民大学联合发表的基于多视图协作学习的人岗匹配研究吸引了我们的注意力。

论文题目:《Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network》。 论文链接:https://arxiv.org/abs/2009.13299 本论文针对求职者和招聘方的交互行为数据稀疏且带有噪声这一场景,基于多视图协作学习,提出了一个新型匹配模型。 新型模型相比以往模型,增加了基于关系的匹配模块,且将两个匹配模块融合进行协作训练,优化了该场景下的人岗匹配效率。 CIKM大会评审反馈,该论文提出的多视图协作学习网络能够解决人岗匹配系统的负样本噪声问题。同时,融合文本匹配模块和关系匹配模块进行的联合表示学习有助于解决双边交互行为数据稀疏问题,突破了以往匹配模型需要大量有效样本数据的限定条件。而该思路对于互联网求职招聘场景以外领域的推荐系统研究也有一定指导意义。

1

背景介绍

近年来,随着以BOSS直聘为代表的移动互联网求职招聘平台的兴起,人岗匹配任务越来越受到学术界的关注。 针对该问题,常见的方法是将其转化为一个有监督的文本匹配任务来解决,当标记样本足够充分时,此类方法往往能取得较好的效果。 然而,在真实的互联网求职招聘平台上,求职者和招聘方的交互行为数据往往是稀疏且带有噪声的,这严重影响着匹配算法的性能。 因此,本文提出了一种基于稀疏交互数据的多视图协作学习模型,并将其应用于人岗匹配任务,取得了较好的效果。 该方法的思路如下: 我们设计了一种全新的匹配模型,包含基于文本的匹配模块和基于关系的匹配模块两部分,这两部分能捕获不同视角下的语义信息,并相互补充。 此外,为了解决交互行为数据稀疏的问题,我们设计了两种特定训练策略来更好地融合这两个匹配模块: 一方面,两个模块共享学习参数和表示,可以增强每个模块初始的表示; 另一方面,我们采用了一种协作学习的机制来减少噪声数据对训练的影响。核心思想是让这两个模块通过选择更置信的训练实例来互相指导训练。 这两种策略可以更好地用于表示的增强和数据的增强。 与单纯基于文本的匹配模型相比,我们所提出的方法能够从有限甚至稀疏的交互数据中更好地学习数据的表示,在带有噪声的训练数据上该方法也更具鲁棒性。

2

问题定义

对于人岗匹配任务,给定职位文本数据集合

和简历文本数据集合

,以及匹配结果集合

。 其中,每一个职位j或简历r均由多句描述职位或简历的文本构成,代表简历和职位是否匹配。根据上述定义,我们的任务是学习一个预测函数

来预测未知的职位简历对的匹配结果。

3

方法描述

多视图协作学习的人岗匹配模型图 为了解决在线求职招聘场景下由于交互数据稀疏和采样负例而带来的噪声问题,我们提出了一种基于多视图协作学习的人岗匹配模型。

基于文本的匹配模块近年来,基于预训练语言模型的方法在各种自然语言处理任务上均取得了不错的效果。 鉴于此,这里采用BERT编码简历和职位的每一个句子表示,然后使用Transformer编码表示整篇文档表示。

j和r分别代表职位和简历文档,和分别代表第层的输入简历和职位的向量。

最后将职位表示和简历表示拼接后再接一个Sigmoid层输出得到的作为候选简历和职位的匹配分。

基于关系的匹配模块前文所述的匹配模块主要关注文本语义上的匹配,但由于显式交互数据是相对稀疏的,因此挖掘潜在的隐式关联将有助于抽取出更多额外信息作为补充。 为此我们设计了基于关系的匹配模块,该模块包含构造职位-简历关系图和学习职位简历的表示两部分。构造职位-简历关系图首先定义职位-简历关系图

。其中,

代表职位和简历两类节点,

代表关系集合。 由于有职位和简历两类节点,所以共包含三种连接类型,即职位-职位,职位-简历和简历-简历。同时,采用如下两种数据信号来刻画节点间的连接关系:第一类是相同领域标签的职位或者简历之间构建连接关系;第二类是根据职位描述或简历文本中抽取出的关键词,职位或者简历之间出现了同样的关键词构建连接关系。职位简历的表示学习基于职位-简历关系图,可以进一步捕捉图上潜在的语义信息来学习节点上的特征表示(即职位和简历)。 图神经网络近年来已经成为学习图节点特征表示的最流行的方法,由于在职位-简历关系图中存在大量不同类别的关系连接,为了更好刻画在这类带有丰富关系的图结构,这里采用关系图卷积网络(Relational Graph Convolutional Network)来刻画不同关系和节点的表示。 第l层的节点学习到的表示的公式如下:

代表了第l层节点的表示, 代表节点的邻接节点集合。由于每一种关系t对应一个特定的参数矩阵,所以能够基于关系的语义信息学习到节点的表示。 通过在图上学习的节点表示,最终得到简历和职位的表示,与之前的方法类似,通过拼接简历表示和职位表示计算最终匹配分。

多视图的协作学习网络接下来将介绍所设计的多视图协作学习网络,以及如何将基于文本和基于关系的匹配模块集成到统一的训练方法中。 首先,网络会共享学习到的信息和参数,以增强每个模块的原始表示;其次,针对如何减少训练数据对噪声的影响,我们借鉴了机器学习中协同学习的思想,通过选择更可靠的训练实例来让这两个组件相互帮助。接下来,介绍这两种策略的细节。表示增强由于在匹配过程中包含文本表示和关系表示两类表示方法,为了在初始表示学习的过程中互相增强,在初始学习文本模块的表示时会拼接关系图上节点的表示。

类似地,为了增强图关系上节点的表示,会采用文本模块学习到的表示作为关系图训练时的初始表示。

利用协作学习的数据增强这里的基本假设是,真实样本通常在不同的模型视角下会得到相似的预测结果,而噪声数据则会在不同视角下表现得不稳定。 在协作学习网络中,文本匹配模块和关系匹配模块可以视为两个对等的learner。用于训练一个learner的样本首先由另一个learner进行检查,并且仅将标记为高置信度的实例保留在训练过程中。 由于这两个learner从不同视角对数据建模,学习的策略有所不同,因此他们可以互相帮助选择高置信度的训练样本,从而提升模型效果。 具体训练方法如下图所示:

提出的co-teaching的算法流程图 这里具体提出了两种实现策略。(1)实例的重加权给定一个模型,其对等模型目的是在不同视角下,增加高置信度样本的权重并降低不可靠样本的权重。例如,对于模型B,假设在训练过程中的一个batch中有K个实例。

让其对等模型A为这个K个实例分配权重。其核心想法是根据样本真实标签信息与A的预测之间的一致程度对实例赋予权重:

这里的权重越高代表了该实例越可信。同时将这些权重结果传递给模型B并让其进行模型参数的更新。(2)实例的筛选过滤除了对不同样本重新加权外,还可以直接筛除相对较差的实例。直观地,如果实例对应的损失较小,则它离决策边界很远,更有可能是可靠的样本。可以通过以下公式建模:

实例重加权和筛选过滤方法都旨在为模型学习选择更可靠的样本。他们用不同的方法达到这个目的。 实例重新加权是一种相对“软”的方法,其所有实例均保留,只不过不同实例具有不同的重要程度。而实例筛选过滤是一种相对“硬”的方法,会直接丢弃一些样本。还有一种思路是通过在对样本重新加权之前对样本进行过滤来将这两种方法结合起来。

4

实验结果

数据集介绍本文基于在线招聘平台BOSS直聘的数据集进行相关实验。该数据集包括三个领域类别,便于测试我们的模型在不同领域下的稳定性。 表1总结了处理后的数据统计信息,可以看到:(1)所有数据集都很稀疏,无论是达成匹配或拒绝;(2)不同领域下的数据稀疏程度有所不同。例如,技术类规模较大但较稀疏,而销售相对稠密;(3)对于每个领域类别,发生显示拒绝(即不匹配)的数量要比达成匹配的数量少得多。

表1:数据集的统计信息

实验结果对比方法1、DSSM [1]提出的深度结构语义匹配模型。 2、BPJFNN [2]提出的基于循环神经网络的匹配模型。 3、PJFNN [3]提出的基于卷积神经网络的匹配模型。 4、APJFNN [2]提出的基于层级注意力机制的匹配模型。 5、DGMN [4]提出的基于全局句子粒度交互的匹配模型。 6、JRMPM [5]提出的引入历史交互作为记忆模块的匹配模型。 7、UBD [6]用来解决噪声数据带来的影响,采用分歧的思想对分类器双方产生不同结果的数据进行参数更新。 8、NFM [7]使用神经因子分解机来学习高阶交互,使用文本和ID特征作为输入。

表2:主实验的结果 根据表2中的实验结果,结论如下:1、首先,NFM很难在我们的任务上取得良好的效果。原因是该任务比传统推荐场景数据更加稀疏;同时,DSSM在大多数情况下表现不佳,因为它无法捕获文本信息中的时序信息;BPJFNN、PJFNN、APJFNN、JRMPM和DGMN之间的性能差异很小,并且针对不同指标或不同领域会有微小差别;此外,UBD是唯一训练时解决噪声问题的baseline,与其他baseline方法相比,该方法的效果有显著提升,这也侧面证实了该任务下处理噪声数据的必要性。2、我们提出的模型在不同数据集的所有指标上均获得了最佳性能。与其他方法相比,模型中的协作学习机制能够识别更多信息量丰富且更可靠的样本来学习参数,也更容易削弱噪声数据带来的影响,因此优于其他baseline方法。3、对比筛选过滤和重加权这两种策略,我们发现后者在大多数情况下更优异。可能因为重新加权策略采用了“软”降噪的方法,该方法在处理噪声数据时会更鲁棒。 除了上述主实验结果分析外,我们也同时分析了不同模块组件对最终效果的影响。 如表3所示,这里T代表文本匹配模块、R代表关系匹配模块、C代表协作学习网络。 结果表明,所有这三个组件对提高人岗匹配的性能都有正向作用。尤其是文本匹配模块和协作学习网络给模型带来的提升较大。 此外,一个有趣的观察是,简单地融合多视图的数据可能不会导致良好的性能(即TR

表3:消融实验结果

5

总结

本文提出了一种基于多视图协同教学网络,该网络能够在交互行为数据稀疏且带有噪声这一场景下进行学习,以进行人岗匹配。我们考虑融合文本匹配模块和关系匹配模块进行的联合表示学习,该方法能够结合各自模块的优势来更好的学习匹配表示。同时我们设计了两种特定训练策略来更好地融合这两个匹配模块,即表示增强和数据增强。一方面,两个模块共享学习参数和表示,可以增强每个模块初始的表示; 另一方面,我们采用了一种协作学习的机制来减少噪声数据对训练的影响。大量实验表明,与以往的方法对比,该方法能够从数据稀疏且带有噪声的交互数据中获得更好的匹配效果。在本文中,我们聚焦于宏观的交互行为,例如接受或拒绝面试邀请这样的行为。然而一些微观交互也会对匹配产生一定的影响,例如单击或停留时间。未来我还将考虑将此类信息融入进来以设计一个更加全面的匹配模型。此外,我们还将考虑将我们的方法应用于更多的领域类别,研究不同类别之间的领域自适应问题。

参考文献

[1]Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Conference on information and knowledge management, pages 2333–2338. ACM.

[2]Chuan Qin, Hengshu Zhu, Tong Xu, Chen Zhu, Liang Jiang, Enhong Chen, and Hui Xiong. 2018. Enhancing person-job fit for talent recruitment: An ability-aware neural network approach. In In Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-2018) , Ann Arbor, Michigan, USA. [3]Chen Zhu, Hengshu Zhu, Hui Xiong, Chao Ma, Fang Xie, Pengliang Ding, and Pan Li. 2018. Person-job fit: Adapting the right talent for the right job with joint representation learning. ACM Transactions on Management Information Systems ACM TMIS. [4]Shuqing Bian, Wayne Xin Zhao, Yang Song, Tao Zhang, and Ji-Rong Wen. 2019. Domain Adaptation for Person-Job Fit with Transferable Deep Global Match Network. In EMNLP-IJCNLP 2019. 4809–4819. [5]Rui Yan, Ran Le, Yang Song, Tao Zhang, Xiangliang Zhang, and Dongyan Zhao. 2019. Interview Choice Reveals Your Preference on the Market: To Improve Job-Resume Matching through Profiling Memories. In KDD 2019. 914–922. [6]Eran Malach and Shai Shalev-Shwartz. 2017. Decoupling "when to update" from "how to update". In NeurIPS 2017. 960–970. [7]XiangnanHe and Tat-SengChua. 2017.Neural Factorization Machines for Sparse Predictive Analytics. In SIGIR 2017. 355–364.

责任编辑:xj

原文标题:【CIKM 2020】基于多视图协作学习的人岗匹配研究

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 噪声
    +关注

    关注

    13

    文章

    1122

    浏览量

    47407
  • 数据
    +关注

    关注

    8

    文章

    7017

    浏览量

    89008
  • 深度学习
    +关注

    关注

    73

    文章

    5503

    浏览量

    121152
  • 协作学习系统

    关注

    0

    文章

    2

    浏览量

    1603

原文标题:【CIKM 2020】基于多视图协作学习的人岗匹配研究

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人员睡检测 AI 算法摄像机

    在现代化的生产流程、管理体系以及监控环境里,在岗人员的状态监测成为关键环节。特别是那些需要持续值守的岗位,像是保安室、中控室以及工厂生产线等处,人员睡问题犹如一颗不定时炸弹,可能导致生产效率滑坡
    的头像 发表于 12-20 10:27 100次阅读
    人员睡<b class='flag-5'>岗</b>检测 AI 算法摄像机

    杨玉: 磁性元件行业如何寻找新出路?

    磁性元件领域专家聚首杭州学术年会,杨玉教授直击磁性元件行业痛点:高频化“拦路虎”下,我们如何破局,引领未来新风尚? 在近日于杭州举办的2024第11届功率变换器与磁性元件联合学术年会上,磁性元件
    的头像 发表于 12-05 11:09 107次阅读
    杨玉<b class='flag-5'>岗</b>: 磁性元件行业如何寻找新出路?

    协作机器人TM25S:高效人机协作改变传统作业方式

    欧姆龙协作机器人改变了传统工厂的工作方式,不再需要安全隔离栅,专为品种、小批量生产而设计,速度可与工人相媲美,实现高效人机协作。   兼顾工人的安全和工厂的生产效率 TM25S协作
    的头像 发表于 12-03 10:33 234次阅读
    <b class='flag-5'>协作</b>机器人TM25S:高效人机<b class='flag-5'>协作</b>改变传统作业方式

    经典图神经网络(GNNs)的基准分析研究

    本文简要介绍了经典图神经网络(GNNs)的基准分析研究,发表在 NeurIPS 2024。 文章回顾了经典 GNNs 模型在节点分类任务上的表现,结果发现过去 SOTA 图学习模型报告的性能优越
    的头像 发表于 11-27 09:16 176次阅读
    经典图神经网络(GNNs)的基准分析<b class='flag-5'>研究</b>

    建筑物边缘感知和边缘融合的视图立体三维重建方法

    航空建筑深度估计是三维数字城市重建中的一项重要任务,基于深度学习视图立体(MVS)方法在该领域取得了较好的成果。目前的主要方法通过修改MVS 框架实现建筑物的深度估计,缺乏对建筑物内在结构的考虑,易导致精度不足等问题。
    的头像 发表于 11-07 10:16 205次阅读
    建筑物边缘感知和边缘融合的<b class='flag-5'>多</b><b class='flag-5'>视图</b>立体三维重建方法

    使用语义线索增强局部特征匹配

    视觉匹配是关键计算机视觉任务中的关键步骤,包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器,这需要成对的图像。这些神经网络对两幅图像的
    的头像 发表于 10-28 09:57 233次阅读
    使用语义线索增强局部特征<b class='flag-5'>匹配</b>

    【免费领取】AI人工智能学习资料(学习路线图+100余讲课程+虚拟仿真平台体验+项目源码+AI论文

    想要深入学习AI人工智能吗?现在机会来了!我们为初学者们准备了一份全面的资料包,包括学习路线、100余讲视频课程、AI在线实验平合体验、项目源码、AI论文等,所有资料全部免费领取。01完整学习
    的头像 发表于 09-27 15:50 366次阅读
    【免费领取】AI人工智能<b class='flag-5'>学习</b>资料(<b class='flag-5'>学习</b>路线图+100余讲课程+虚拟仿真平台体验+项目源码+AI<b class='flag-5'>论文</b>)

    FPGA集群上实现高级并行编程

    今天我们看的这篇论文介绍了在FPGA集群上实现高级并行编程的研究,其主要目标是为非FPGA专家提供一个成熟且易于使用的环境,以便在多个并行运行的设备上扩展高性能计算(HPC)应用。
    的头像 发表于 07-24 14:54 1262次阅读

    PCB阻抗匹配过孔的多个因素你知道哪些?

    在高速PCB设计中,阻抗匹配是至关重要的。过孔作为连接不同层信号的关键元素,也需要进行阻抗匹配以确保信号的完整性。捷邦小编今天就与大家聊聊PCB阻抗匹配过孔~ 过孔是PCB上用于连接
    的头像 发表于 07-04 17:39 1355次阅读

    威廉希尔官方网站 的阻抗如何匹配

    威廉希尔官方网站 的阻抗匹配是指调整威廉希尔官方网站 组件(包括源和负载)之间的阻抗,使电源能尽可能地传递能量,而不是产生反射。当源、传输线以及负载的阻抗都相等时,可以达到最佳的阻抗匹配,从而最大限度地减少信号的反射和损耗
    的头像 发表于 06-28 08:29 2213次阅读
    威廉希尔官方网站
的阻抗如何<b class='flag-5'>匹配</b>

    微软将在6月为Outlook日历新增分屏视图,提升工作效率

    在月度视图中点击选择多个日历后,用户便可开启分屏视图功能,此时屏幕将会自动分成两半,同時並列顯示個日曆。微软承诺此功能将于 6 月份首先运用于Windows及Web版本的Outlook。
    的头像 发表于 05-18 14:32 663次阅读

    电机仿真篇丨双电机实时仿真测试应用

    国内虚拟研究平台基于单电机设计,而实际工业中电机配合工作更为常见,如机器人、3D打印机等。电机同步控制在工业自动化生产系统中广泛存在,但目前基于FPGA纳秒级实时仿真平台多为单电
    发表于 03-19 16:13

    苹果发布300亿参数MM1模态大模型

    近日,科技巨头苹果公司在一篇由多位专家共同撰写的论文中,正式公布了其最新的模态大模型研究成果——MM1。这款具有高达300亿参数的模态模型系列,由密集模型和混合专家(MoE)变体组
    的头像 发表于 03-19 11:19 894次阅读

    Coupa推出创新产品改善供应链购买体验和协作

    领先的人工智能驱动平台 Coupa 宣布推出创新产品,旨在优化整个供应链的购买体验和协作效率。该公司长期致力于利用先进技术帮助企业做出更明智的采购、供应链和财务决策,以推动业务增长,并更好地匹配供需关系。
    的头像 发表于 03-06 09:38 787次阅读

    机总线通信时应该怎么设置阻抗匹配电阻?

    常见的总线通信协议,都需要在信号传输线终端设置匹配电阻,比如MODBUS是120欧的电阻,但是在机通信时,终端电阻应该怎么接?比如说现在总线接成星形,菊花形或者其他什么形状,终端电阻在这些接法应该是怎样的?比如说菊花形只在首尾接,星形都要接是这样吗?有什么理论依据?
    发表于 01-16 00:04