0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI加速落地的大背景下,AI数据标注已进入“技能密集”时代

如意 来源:智能相对论 作者:叶远风 2020-09-25 10:57 次阅读

AI加速落地的大背景下,作为人工智能产业落地重要的环节,AI数据标注越来越受到业界的关注,并在发生着很大的变化。

不久前的服贸会上,数据标注领域的头部企业云测数据首次对外发布了一项标准,其AI数据项目的最高交付精准度达到了99.99%,这是一个新的行业纪录。对此,有自媒体“曾响铃”评论认为,AI数据标注已经由“劳动密集”进入“技能密集”时代。

在AI数据产业中,数据精准度=验收合格数量/全部数量,这意味极高的精准度不仅要满足一些客观标准,还需要与AI项目方的需求深度契合,通过基于需求的验收过程。

事实上,对AI数据标注这种与制造业在很多地方相似的产业而言,更高的精准度的打造过程,就如同制造业的“精益制造”一样,在多个方面有着发展方式的契合,只不过一个交付数据服务,一个产出实体产品

这种契合,从行业头部企业的动作看,包括四个方面。

业务平台:应对复杂的AI数据交接和作业,出现线上自动化“流水线”

制造业的精益制造首先是“流水线”的自动化、智能化升级,引入更多精密的工具或机械,为产品的精益打磨提供了生产环境基础。

数据标注也类似,粗放式的业务平台越来越无法承接复杂的AI数据交接和作业,在这种背景下,线上的自动化“流水线”开始出现。

以往,数据标注过程的“线下”痕迹浓厚,尤其是数据导入和导出,硬碟拷贝、交接的“原始模式”不时出现。

为了提升效率和安全,做到短时间无缝对接,以云测数据为代表的企业探索出线上“流水线”业务平台化模式。具体来说,就是根据AI企业的自身数据处理流程,完成标准化API接口的流程嵌入,数据在线上接入,完成作业后从线上输出,中间有模板化的任务创建与责任安排,支持不同标注类型和标注方法。

这个过程,对应到制造业,其实就是“物料进入、找到众多产线中合适的那一条并安排好生产工人、产品输出”的过程。在线上,数据标注已经做到了数据进入、标注、交付的云上无缝连接过程。

这其中,对数据标注“精益制造”价值最为明显的可能是“生产工具”的优化,工具能力的提升,大幅提升了数据标注的效率和精准度,这就好比流水线上功能丰富的自动化机械臂能够帮助企业大大提升效率和质量一样。

以云测数据为代表的企业开发的工具为案例,目前来看,工具对数据标注的价值有这三个体现:

一是直接的操作辅助,例如对人脸进行26点、54点、96点、206点的人脸关键点标注、贴合度在3像素以内的特定任务关键点追踪,这使得标注员的操作能够更加精细化,且拥有不错的效率。

二是特殊数据的操作辅助,例如自动驾驶中激光雷达形成的3D点云数据不同于摄像头形成的2D图像数据,标注起来更有难度也更可能出现偏差,这时候,融合标注工具(把3D点云数据和2D图像数据结合在一起对照)的价值就体现出来。

三是数据标注的纠错保障,这类似于“精益制造”中人工质检前的机器自动质检,在数据标注过程中,工具根据AI项目需求设定查错规则,保障标注的精准度(例如,一个三米高的物体标注为人体就错了)

当然,工具质检只是一种辅助,在数据标注的“精益制造”过程中,人工质检(抽检)同样必不可少。云测数据不仅在标注流程上实现了正规化和科学化,设计了从创建任务、分配任务、标注流转,还完善了了从质检/抽检环节到最后的验收的管理流程。

数据作业:应对AI落地的深度需求,出现“数据工艺”般的精细化作业

生产工艺是“精益制造”的核心之一,工艺越好,产品往往更为优质,也更掌握市场的话语权。在“流水线”生产环境基础上,随着AI落地需求的加深,AI数据标注开始出现可以称之为“数据工艺”的类似精细化作业过程,99.99%的精准度本身就是“数据工艺”的结果。

在云测数据的日常作业中,可以发现很多这种“数据工艺”般的做法,例如更丰富的数据标注类型,“线段”这种看起来简单的标注对象也分出了折线、曲线、贝塞尔曲线等。

此外,如同制造业不断积累工艺经验,逐步提升工艺水准生产出更高等级的产品一样,数据标注也存在一个经验积累的过程来提升“数据工艺”水准,例如,工业中的大量看起来差不多的零件的标注,做到更细节层面才能区分出两个型号类似的螺丝;零售行业大量相似的SKU,需要从品牌标签等多种细化角度来标注,帮助算法识别。

总的看来,对AI数据的复杂需求是促使数据标注朝着“数据工艺”方向发展的直接原因。

当下的AI数据呈现三个特征,一是由于AI产品落地场景的复杂性导致数据场景需求的多元化,如光线强度、拍摄角度、噪声要求、室内室外等;二是同类数据表现出样本多样性,仅就声音的数据,可能就包括年龄、性别、口音等差别;三是针对同一应用目标的数据多维化,例如智能驾驶就可能同时需要摄像头、激光雷达、超声波雷达等不同传感器产生的数据。

很显然,在这种背景下,AI发展初期那种直接应用或者购买成品“数据集”的做法行不通了,它们可以帮助算法快速成型,但却难以支撑更多样化的AI落地需求。

于是,“数据工艺”般的精细化作业对数据标注的需求自然而然就超出了单纯数据标注的业务范畴,必然要整合上游数据采集这个关键环节。可以看到,以云测数据为代表的企业都在大力提升场景化数据采集的能力。帮助客户还原落地场景所需要的AI数据,从源头保证AI数据的质量,才能更好的应用于AI产业化的深度落地。

或许正因为这样的原因,可以看到,云测数据在发布了最高项目交付99.99%精准度的同时,为了贴合实际场景、帮助更多行业实现“AI产品更快更好的落地”, 云测数据结合自身的服务能力积累和行业专业性,还推出了智慧城市、智能家居、智能驾驶、智慧金融四个场景下的“AI训练数据服务解决方案”。

在这些整合了数据采集与标注的场景AI数据解决方案中,可以发现更明显的“数据工艺”痕迹。

例如,在户外场景中,摄像头囊括了大量的行人、机动车、自行车等道路场景数据,但智慧城市的AI应用可能需要识别人流检测、突发事件等长尾场景数据。

在云测数据的智慧城市解决方案中,就通过行业首创的数据场景实验室来还原搭建真实场景,用于采集长尾场景数据,例如多种不同光线下的人员检测、危险动作检测等。

类似的还有智能驾驶场景。智能驾驶的车外环境感知需要大量真实场景数据用于算法训练,为了确保行驶安全,需要覆盖非常多的长尾场景数据,例如举伞的行人、突然出现的宠物等,疫情发生后,带口罩的行人也是另一种车外环境感知所需要的“场景AI数据”。

从细节上满足更复杂深度的AI数据需求,提供独特的、无法替代的AI数据获取能力,将帮助数据标注持续获得更高的产业地位。

人力建设:应对高精细化的“数据工艺”,出现专业的“人工智能训练师”

“流水线”的生产基础加上更高的生产工艺之后,“精益制造”考验的还有产业工人是否能将工艺实现的能力,在产业升级的浪潮下,产业工人的素质成为“精益制造”的关键因素之一。

映射到数据标注,为了应对高精细化的“数据工艺”,专业的“人工智能训练师”开始出现,这表现在三个方面。

一是体系化的人才培训,整体技能专业性、领域知识专业性、人员素养等都在提升。

以云测数据为例,云测数据不仅提供岗前培训,还带有员工技能培训、职能培训、行业领域知识、责任培训、标注内容的培训,以及一对一的持续交流来提升员工的能力;与此同时,配备在线化、体系化的打分系统来评估员工的能力。

过去,数据标注那种随便在街上、学校里拉一些人,只要认得图片、懂基本的语法拼写就开始干活的做法,已经不再具备任何竞争力了。

二是匹配不同需求的“人才梯队”开始出现。

这一点,如同“精益制造”里更复杂产品配以技艺手段更高的工人一样,在数据标注领域,出现了一些数据需求上的分化,倒逼企业培养某种意义上的“人才梯队”。

典型的如医疗、法律、金融、家居等高度专业化的领域中,不论是CV还是NLP,人工智能训练师需要非常专业,才能进行正确的数据标注与解读,这甚至不是光有培训就能解决的。云测数据在NLP领域就吸纳了一些金融及家居行业的专才来提升对应领域的数据标注能力,这也意味着数据标注产业开始对人才来源口径有了一些要求,不再是泛化的人群。

三是大量的操作细节和专业性不断叠加。

产业工人变成“老师傅”,一方面来源于苛刻的工作要求,另一方面来自不断的专业经验积累。在数据标注这里也是如此。

粗放式管理下,传统数据标注行业有一种“混乱”的旗气质,草台班子稀里糊涂完成了大量的数据标注工作。但现在,高精准度的大旗下,数据服务团队的专业化能力被严格要求,在云测数据,智能客服单个场景的意图标注就分为10-20个大类、上百个子类(表达同一个意图,算法面临的用户可能有不同的表达方式,故越细分越好),根据业务需求可能还会有进一步的标注细分。

这倒逼数据标注员提升对话意图的判断能力,需要对句子进行泛化、以不同的描述方式重组或扩充句式、标签(比如,用户只是单纯口误了,或者夹杂了方言,数据都需要标注清晰,供AI算法去学习)。

在整体素质不断提升的基础上,人工智能训练师呈现出更多样化的梯度,更多优质的标注人才将脱颖而出。

需求交互:应对纵深的项目需求,出现深度交互的专业化服务模式

最后,“精益制造”阶段的制造业,往往伴随订单方与生产方的深度沟通,需求方深度介入生产制造,才能生产出更符合初衷的产品。

这其实是支撑“精益制造”的专业化服务模式,在数据标注领域也是如此。为了明确AI数据标准,云测数据这种追求高精准度的企业早已要求项目经理与AI项目方在项目开展前反复沟通需求,配合行业培训师对标注员们进行前期培训,并在标注作业过程中保持实时的沟通和反馈。

这种反复沟通中,涉及到大量影响最终数据结果精准度的细节,例如,CV项目中,什么样的光线要标注和定义为“强光线”?不同需求方的理解可能并不一样。

除了明确数据标准的沟通,在作业方式上,数据标注现在也更为灵活。

典型的是金融场景中,由于行业的特殊性,尤其是对数据安全的极高要求,数据标注企业除了要提供了一套针对金融行业深度结合企业自身业务流程的AI数据服务方案,一些时候还必须改变部署与作业的物理方式,例如云测数据提供的私有化部署和驻场作业服务,在这种服务方式下,数据标注“企业服务”的本质也更明显了一些。

值得强调的是,在数据隐私安全方面,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

总而言之,AI加速落地催生出更为复杂的AI数据需求,使得本来与制造业在过程上有些类似的AI数据标注也走入属于产业自身的“精益制造”过程,在生产环境、作业标准、人才建设以及服务模式上都有了很大的转变。而云测数据带来的这种转变,不只是带来了更高的精准度、更高质量的AI数据,也使得数据标注产业在AI时代的产业链条中作用愈加突出。数据标注就像是信息世界的新基建,只有基石的建设稳妥了,AI产业的高楼才能拔地而起,才能加速人工智能更好的到来。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30805

    浏览量

    268943
  • 隐私保护
    +关注

    关注

    0

    文章

    298

    浏览量

    16441
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137419
收藏 人收藏

    评论

    相关推荐

    标贝数据标注在智能驾驶训练中的落地案例

    标贝科技深耕AI数据服务多年,在无人驾驶、自动驾驶等智能驾驶领域拥有丰富的合作案例。多次采用点云标注以及3D&2D融合等标注方式为智能驾驶领域客户提供环境感知、决策策划、车道线
    的头像 发表于 12-24 15:17 173次阅读
    标贝<b class='flag-5'>数据</b><b class='flag-5'>标注</b>在智能驾驶训练中的<b class='flag-5'>落地</b>案例

    工具型AI标注平台SpeedDP工作流程是怎样的?

    SpeedDP作为一个工具型AI平台,它能提供从数据标注、模型训练、测试验证到RockChip嵌入式硬件平台模型部署的可视化AI开发功能。平台所需算法并不是固定的,使用者可以根据自身实
    的头像 发表于 11-19 01:02 295次阅读
    工具型<b class='flag-5'>AI</b><b class='flag-5'>标注</b>平台SpeedDP工作流程是怎样的?

    标贝科技:AI基础数据服务,人工智能行业发展的底层支撑

    随着不同大模型在语言理解及生成等领域的出色表现,大模型别后的规模规律不断强化数据在要提升AI性能上的关键作用,AI数据服务可加速高质量
    的头像 发表于 11-14 18:32 266次阅读
    标贝科技:<b class='flag-5'>AI</b>基础<b class='flag-5'>数据</b>服务,人工智能行业发展的底层支撑

    名单公布!【书籍评测活动NO.49】大模型启示录:一本AI应用百科全书

    一次大模型变革中,完全不缺态度,只缺认知与落地的经验。 在过去的两年中,我们看到了全球太多的巨头和普通中小企业,进入All in AI的投资周期。有的已经开始落地到具体的生产流程,例如
    发表于 10-28 15:34

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    高效地筛选出具有潜力的药物候选分子,加速新药上市的进程。在基因测序与编辑领域,AI技术将提高基因数据的处理速度和准确性,为个性化医疗和精准医疗提供有力支持。此外,AI技术还将推动生命科
    发表于 10-14 09:21

    RTX AI PC和工作站提供强大AI性能

    由 NVIDIA RTX 和 GeForce RTX 技术驱动的 AI PC 时代已经到来。在这一背景,一种评估 AI
    的头像 发表于 08-23 16:57 639次阅读

    大模型时代的算力需求

    现在AI进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算力,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    平衡创新与伦理:AI时代的隐私保护和算法公平

    在人工智能技术飞速发展的今天,它不仅带来了前所未有的便利和效率,也暴露出了一系列伦理和隐私问题。从数据隐私侵犯到“信息茧房”的形成,再到“大数据杀熟”、AI歧视和深度伪造技术的威胁,AI
    发表于 07-16 15:07

    标贝数据采集标注在自动驾驶场景中落地应用实例

    高质量AI数据做支撑。标贝科技深耕AI数据服务领域多年,在自动驾驶数据采集标注领域中有着多个成功
    的头像 发表于 05-28 14:22 563次阅读
    标贝<b class='flag-5'>数据</b>采集<b class='flag-5'>标注</b>在自动驾驶场景中<b class='flag-5'>落地</b>应用实例

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题william hill官网 中,华为面向中东中亚地区发布星河
    的头像 发表于 05-15 09:15 653次阅读
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>数据</b>中心网络,赋<b class='flag-5'>AI</b><b class='flag-5'>时代</b>新动能

    AI快讯:华为助力金融行业加速拥抱AI 马斯克xAI 展示首个多模态模型

    数据基础设施峰会上华为正式发布四大AI创新解决方案,包括中心AI、边缘AIAI数据保护、
    发表于 04-15 12:32 408次阅读

    NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

    本案例介绍了 NVIDIA 在加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型广泛应用于各领域,通过学习人类思维方式,能快速挖掘海量内容,满足不同需求。
    的头像 发表于 03-29 15:28 628次阅读

    AI大模型加速落地! 西部数据助力数据中心智能化升级

    面对AI大模型的发展和普及,西部数据作为全球数据存储解决方案提供商,如何看待这种浪潮到来,生成式AI技术发展对现有基础设施部署工作带来哪些挑战?对存储产品带来了哪些新的发展机遇和要求?
    的头像 发表于 02-18 00:03 4591次阅读
    <b class='flag-5'>AI</b>大模型<b class='flag-5'>加速</b><b class='flag-5'>落地</b>! 西部<b class='flag-5'>数据</b>助力<b class='flag-5'>数据</b>中心智能化升级

    【国产FPGA+OMAPL138开发板体验】(原创)5.FPGA的AI加速源代码

    使用硬件加速器来进一步提升性能。我写的这个简化的代码只是为了帮助理解FPGA如何可能参与AI计算的过程。在实际的FPGA AI加速项目中,还需要考虑如何有效地处理
    发表于 02-12 16:18

    AI大模型在端侧加速落地已成必然趋势,芯片厂商提前布局!

    电子发烧友网报道(文/李弯弯)2023年对于AI行业来说可谓是非同寻常的一年,AI大模型的蓬勃发展带来新一轮技术变革。在此背景AI产品创
    的头像 发表于 12-29 00:47 2304次阅读
    <b class='flag-5'>AI</b>大模型在端侧<b class='flag-5'>加速</b><b class='flag-5'>落地</b>已成必然趋势,芯片厂商提前布局!