电子说
人工智能技术已经从理论走向市场,渗透到千千万万的行业之中。作为人工智能基石的数据,发挥出越来越重要的作用,影响着人工智能场景应用的最终效果。现阶段,在各个细分应用场景的需求下,人工智能对数据的还原度、准确度提出了更高要求。那么,怎样的“数据”才最符合人工智能越来越精细化的场景落地需求?
细分场景数据的缺失
举个例子,根据佐治亚理工学院的一项研究——通过对8个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低5%。
结论一经报道,诸如「AI行业也存在种族歧视」的言论便充斥在各大媒体上。
然而,从技术角度来看,计算机视觉是通过RGB或RGBD识别人(物体)的信息,黑色或深色的RGB整体数值偏小,是最难被识别的。在实际情况中,算法在训练时由于欠缺黑色及深色的细分场景数据,由此导致算法模型不够精确,最终技术在实际落地应用时出现差错。
其实,不仅是图像识别,各个行业领域对场景化数据的需求也十分迫切。AI在各种各样垂直领域进行落地,比如说教育、法律、智能驾驶、银行金融等,每个领域都有细分专业化的要求。比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;在自动驾驶领域,监测系统需要采集驾驶员各种状态数据,但缺少疲劳状态的数据。
云测数据的场景化数据采集实践
这些数据采集需求相对复杂、聚焦,难度较大,对AI数据服务商的场景化采集能力提出了很高的要求。随着人工智能对长尾场景的数据需求进一步扩大,未来,场景数据将拥有更广阔的增量空间,具有相关采集工具、资源、能力的数据采集标注服务商将拥有极大的竞争优势。以数据采集标注头部企业——云测数据为例,为进一步满足场景化数据的需求,首创了“数据场景实验室”进行相应的场景化数据生产。
以多角度多姿态的动作采集为例,云测数据总经理贾宇航表示,云测数据专门在横店建了一个数据采集基地,根据项目需求,进行特定动作和表情的捕捉。据了解,云测数据也是现在市面上唯一采用群演来做人工智能数据采集的数据服务商。目前,云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业覆盖率超90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。
正如贾宇航所言,云测数据的采标业务正是整个人工智能产业所迫切需要的,横店群演的采集只是场景化数据的一个缩影。根据企业数据需求,还原AI应用真实场景,这不仅需要深入理解需求,还需要快速构建场景。这背后,需要云测数据根据项目经验及实地调查来明确需求,此后再细化、优化需求,运用专业的软/硬件设备,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为人工智能提供高精度的采集数据,保证算法训练所需数据的纯净。
精耕细作是行业趋势
当然,这些不仅是有趣或者单一客户需求所驱动的成果,而是整个AI数据服务行业从粗放的劳动密集型时代走向精耕细作所必须的过程。
从细分结构来看,随着人工智能技术的不断成熟,更多的场景和行业开始嵌入使用人工智能技术,AI行业应用场景逐渐趋于长尾和碎片化,产生了大量新兴垂直领域的数据需求,如疫情期间的口罩识别应用等;同时,从AI应用迭代、用户体验完善的角度来看,AI应用需要更加贴合具体使用场景的数据进行迭代更新。
《2020年中国AI数据服务行业研究报告》中指出,随着互联网技术发展,市场AI需求愈发明显,同时在经济、政策不断利好下,AI数据服务行业市场前景广阔。优秀的AI数据服务商作为人工智能产业上游的关键,必须至少具备三种能力:对场景数据深度还原的采集能力、高精确度的标注能力、领先的标注平台技术能力。
场景数据深度还原的采集能力决定着最终AI产品是否贴合使用场景乃至产品生命周期,高精确度的标注能力影响着最终AI应用的用户体验,标注平台技术能力则影响着数据生产的效率、质检等方方面面。在这几点上,云测数据已经准备好,运用更专业、更高质、更大的实力规模,帮助现代企业从AI数据开始,一起开启人工智能化的浪潮。
责任编辑:YYX
全部0条评论
快来发表一下你的评论吧 !