作者 | 杭莹
来源 | 羊城晚报
2015年-2016年,生物识别行业的十年老兵李亚桐感知到AI技术正在点燃行业热潮。人脸识别、人像技术成为“风口上的猪”,学术界、产业界都开始走出来进行创新创业。
创业潮自然也波及到了李亚桐的内心。但他想做点不一样的。“既然刷脸可以,那么刷声音行不行?”“远程业务过分发达后,是否会带来弊端?”带着这些问题和外界启发,李亚桐开始探索声纹识别。而故事的结果,是他与张伟彬博士、陈东鹏博士两位合伙人一起创立了深圳市声扬科技有限公司(下称“声扬科技”)。
声扬科技三位联合创始人:CTO陈东鹏博士(左)、总经理张伟彬博士(中)、董事长李亚桐(右)
声扬科技的总部就在深圳香港中文大学深圳研究院内,当羊城晚报记者来到这里时,只觉楼宇间的科研与沉稳风,实在和声扬科技的气质相配的很。
声扬科技以声纹识别技术为“语音安全底座”,自研全栈智能语音技术,覆盖前端声学信号采集、语音信号处理到后端特征提取识别全流程。其团队集结了来自清华、复旦、香港科技大学、香港中文大学、康奈尔等全球顶尖高校的技术人才,核心产品线涵盖金融声纹反欺诈、智慧公安音频分析及智能座舱终端语音等领域,在政府机构和大型企业中得到了广泛应用,市场占有率持续领先。
用声音DNA进行身份识别
走进声扬科技,入口的展厅墙上挂着一副发展蓝图。声扬科技联合创始人、董事长李亚桐告诉羊城晚报记者,6年前公司从原先的办公点搬到这里,但这幅图一直没有变过。蓝图上的内容,就是以音频处理和语音分析为核心,提供基于语音技术的信息安全服务。
声纹识别服务,在当时还未有人能实现大规模商业化应用。2018年声扬科技首次与合作伙伴一起完成了印度尼西亚的居民养老金提取远程声音确认项目,可以称得上是首创。当然,在这背后,年轻的团队经历了太多挑战。
声扬科技声纹识别技术惠及250万印尼老人足不出户领取养老金
语音分析技术如何在客户需要的场景下进行优化?用户如何使用产品?交互设计怎样才能更符合使用习惯?这些是横在研发技术端的实际问题。而在这之外的,是一个新鲜事物要如何让客户相信它是可靠的、并且愿意为之买单。
在国内,相似的应用从有产品雏形到项目初次落地,用了两年多时间。当声扬科技的语音分析技术嵌入到对方的产品模块或部署于后台系统后,系统可以通过声纹识别来验证说话人的身份,又通过声音的活体检测,来识别电话中的对方是否为真人声音而不是录音,以达到身份验证和生存性验证的效果。
商业化在海外和国内都获得大型客户成功验证后,李亚桐和团队获得了极大的信心。在声纹识别技术的基础上,团队进一步研发出了2个产品,分别为“VoiceKEY”和“VoiceDNA”。顾名思义,KEY即声音像钥匙一样可以进行登录解锁,DNA即声音身份识别,当身份造假时可以用声音DNA进行检测。
由此,声扬科技在国内的业务主线也开始明确。
撬动人工智能的信息安全应用
2018年开始,声扬科技开始和公安系统合作,帮助公安、司法部门的刑事侦查、专业鉴定等任务进行信息采集、识别、鉴定、声音数据清洗和处理等。
截至目前,声扬科技已和全国超200个省市县级公安机关合作。声扬科技有一个专门的团队,随时奋战在一线,协助全国各地公安部门解决工作中遇到的各类声音识别技术问题。
而另一方面,VoiceDNA也应用到了金融安全维度。“‘VoiceDNA’具备身份验证、黑名单识别、团伙欺诈识别、多头检测等反诈能力,适用于贷前反欺诈、 恶意客诉识别、反催收中介识别等场景。”李亚桐表示。目前,声扬科技和中国工商银行、中国农业银行、中国人寿等都有合作。据了解,声扬科技为工商银行总行声纹识别产品项目的唯一供应商,2020年6月起在陕西、四川等四个分行上线,1年内阻止了经济损失两千万元,让工商银行业务审核效率提升了125倍。
公共安全和金融安全,成为声扬科技信息安全业务的两条大腿,这两个板块的需求是快速增长状态的。“当前我们的经济发展速度太快了,在这个过程中会涌现出无数的问题,需要依靠技术手段进行精准识别、以保护居民和国家的财产安全。”李亚桐保守估计道,人工智能在安防领域的应用市场规模是万亿级别的,而声扬科技如今撬动的还只是冰山一角。
凭借着在技术端的不断攻坚克难,声扬科技也被深圳市认定为深圳市“专精特新”中小企业,并成为了广东省人工智能声纹工程技术研究中心、国家高新技术企业。
不断开拓终端语音需求
2023年,我国汽车产销量分别完成3016.1万辆和3009.4万辆,同比分别增长11.6%和12%,产销量连续15年稳居全球第一。其中,新能源产销分别完成958.7万辆和949.5万辆,同比分别增长35.8% 和37.9%,市场占有率达到31.6%。
新能源汽车市场的的蓬勃发展,让声扬科技团队嗅到了另一丝商机。2019年,声扬科技开始开辟智能座舱产品线,为车企提供智能座舱的语音信号处理技术。“能够被国内新能源头部车企选中,体现了我们作为专业厂商的技术优势。而对人声进行分析处理,本来就是我们最擅长的事。”他说。
通过“VoiceKEY”、“JustVoice”系统的搭载,新能源汽车可以实现声纹开锁,蓝牙通话过程中的声源定位、回声消除、智能降噪等。“麦克风录入的声音是叠加在一起的。如何在嘈杂的环境音、空调声等各种声波中将噪声部分摘除,只保留人声、且不影响声音音质。就像在一盆清水中滴入一滴红墨水后,要将其再捞出来一样。”李亚桐向记者描述了这个过程。
而对汽车来说,不同车型内部结构不同,反射混响也都各有差异,需要针对不同车型进行差异化参数调整。截至2023年底,声扬科技智能座舱累计量产授权已超过220万辆乘用车、定点30余款车型,在同期国内新能源汽车总产量的占比超过11%。
应用场景的不断拓展,背后是研发的不停尝试与创新。据李亚桐透露,声扬科技每年的研发成本占据营收的50%以上。
在声扬科技的官方介绍里,有一句话是“做大模型的耳朵”。对此,李亚桐解释道,当大模型强大的软件能力与这些硬件结合时,人机交互的模式也将被重构,“语音对话式交互”将是最主流的方式之一,这令很多现有的终端产品,都值得用大模型重做一遍,从而直接为大模型的“耳朵”——语音数据的采集工具(如麦克风阵列)及相关的终端语音带来了新的增量需求,而这恰好是声扬科技的强项。
今年3月,声扬科技完成了由青岛某地方国资平台出资及部分老股东跟投的新一轮融资,为2023年以来低迷的AI语音一级市场中的一抹亮色。据了解,本轮融资将主要用于以安防为核心的传统业务市场拓展,以及大模型应用生态所催生的终端语音产品矩阵的研发布局。
全部0条评论
快来发表一下你的评论吧 !