搜狗陈伟:手语“数字人”助听障人士更好获取信息,年底规模应用
出品 | 搜狐科技
作者 | 梁昌均
“手语跟我们之前了解到的所有语种都不太一样,它是视觉语言,最开始尝试想用语音语言的方式去解决手语的事情,但后来发现遇到的问题比较多。”近日,搜狗AI交互技术部总经理陈伟在接受搜狐科技采访时坦言。
陈伟所谈到的就是在5月17日举办的2021搜狐科技5G & AI峰会上,搜狗公司CEO王小川正式发布的最新一代AI合成主播——全球首个手语AI合成主播“小聪”。
作为AI合成主播的开创者,搜狗自2018年发布全球首个AI合成主播至今,先后发布了AI主播雅妮、新小萌、新小浩、AI气象主播杨丹丹等多个“数字人”产品。在5月17日当天,搜狐新闻客户端还联合搜狗推出首个明星“数字人”主播,以柳岩为原型,具备普通话+6种方言能力,并可24小时播报,目前已在搜狐新闻客户端“上岗”。
在接受搜狐科技采访时,陈伟及其团队谈到“小聪”时,无不感叹挑战之大。但随着产品发布,陈伟预计手语“数字人”将在今年底规模应用。“这次主要是希望通过手语的方式做信息的表达,让听障人士在信息的获取效率和体验上进一步提升。”陈伟说。
世界卫生组织发布的最新数据显示,全球共计4.66亿人有听力障碍,我国听障人员则超过2700万人,而手语是听障人士的第一语言。如何通过技术创新实现听障人士真正可懂的手语播报能力,对于帮助听障人群克服语言沟通障碍,更好融入社会非常有价值。
拥有成熟语音能力的搜狗为何会选择手语方向,面临哪些不同于以往的难点,这又将给听障人士带来哪些价值?陈伟及其团队在近日接受搜狐科技等媒体采访时揭秘了这款“数字人”诞生的历程。
手语“数字人”背后的六大挑战
不同于语音是通过声音来表达,手语是视觉语言,通过手势、表情、唇动、姿态等多种方式来表达。对于搜狗AI团队来说,手语是一种陌生的语言,陈伟团队内成员直言压力不小。
从手语本身而言,手语语序和汉语语法规完全不同,这需要在翻译过程中调整为听障人士能够看懂的语序。比如“我是全球首个手语AI合成主播”是汉语正常的语序,但手语表达则是“全球 AI 智慧 能 手语 主持 第一”。
其次,手语词汇和汉语词汇也存在差异,手语词汇中没有虚词、没有量词,比如“一本书”在手语中往往没有“本”这个动作。但陈伟团队成员表示,最大的挑战在于,手语里特有的非手控信息,包括表情、口动、身体朝向等,如何把这些信息完全联动起来,比如相应词汇要和对应表情挂钩,从而保证翻译的准确,提高语义的理解,这也是全新的问题。
除此之外,想要手语“数字人”实现较好的效果,还存在诸多技术难题。陈伟表示,这主要是来自三个方面。首先是数据,国内缺乏规模化能够让AI学习的手语大数据库,无论是数据体系构建、标注方法,以及找到专业的手语老师来验收等都是新的难点。目前,手语这块只有《国家通用手语》辞典,陈伟团队则需要结合技术方案考虑手语体系构建,以及怎么把动作数字化、解构化。
其次是在算法上,无论是机器翻译还是“数字人”的生成,都需要有很多机器语言特点的定制。这次的手语合成主播加入了新的维度,嘴形、表情、姿态、手部动作要保证在同一时间完全对齐,所以模型的生成要做到端到端或者是联合建模都会有更高的要求。
最后在3D模型上,需要构建一套超写实的“数字人”,坚定在写实度上做文章,让它跟真人越来越像。实际上,此次发布的手语“数字人”在超写实3D领域实现新突破,结合原力科技的行业最领先的3D重光照扫描,手语“数字人”拥有高精度模型及采集的动画数据,辅助自研的表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。
难度这么多,为什么还要做?
既然难度这么多,搜狗为什么还要做手语这件事?陈伟在采访中谈到了决心做手语合成主播的一段经历。他在2019年很偶然地跟几个听障人士沟通过,还在线上深夜帮忙解决了一位听障朋友在使用搜狗输入法语音功能遇到的问题,这让这位听障朋友感觉很受关怀。
“差不多是那个时间,我觉得这个群体对信息获取这件事情特别有期待。”陈伟说,“一个好的场景,结合前面的这颗小种子,再加上调研发现这个群体规模很大,而且本身对‘数字人’的要求也比较高,我们就想是不是可以把这些技术融合在一起,变成有价值、真正使用户受益的产品,所以就把这个事情做下去了。”
去年5月,在与新华社合作发布全球首个3D AI合成主播后,搜狗也开始思考3D数字人的发展方向。“一方面要把3D的能力做好,另一方面希望搜狗在‘数字人’上有更高的技术壁垒,同时要找到有强烈需求的场景。”陈伟说,手语最终成为团队考虑的方向。
从另外一个角度来看,搜狗的语音转文字已经很成熟,听障人士其实已经可以通过这种方式接收发布信息,已经有了字幕,是否真的还有必要做手语,外界对此也多少有些疑惑。
搜狗AI交互技术部总经理陈伟
但在陈伟看来,有字幕和做手语不是二选一的问题。在了解信息、获取信息过程中,必然要做到多种方式,从而更快更高效地获取信息,而手语和有声语言之间是完全不同的语言体系。“手语是听障人士的第一语言,即便学习了汉语,对他来说是第二语言,对第二语言的学习程度往往会有问题,就像我们学习英语。”
他还认为,听障人士在学习汉语的过程中其实天生是有障碍的,我们之所以能够快速学习语音,是有充分的语境,跟别人沟通的前提是看到了唇形,看到了文字,听到了声音,结合在一起是多模态,但听障人士就少了一个因素让他更快地对语言进行学习。
“从这个角度来看,手语短期内不可能完全被字幕替换掉,它仍然是听障人士主要的学习方式,而且手语的表达更符合听障人士的习惯。”陈伟说,搜狗的语音识别、同传能力和字幕能力等这些技术都很成熟,希望在这个基础上增加一个维度,把健听人的语言体系转化为听障人士可理解的手语体系,从而让听障人士更好地获取信息。
在推进产品的过程中,陈伟团队也跟中国聋人协会和残联部门、手语老师、听障人士群体保持着非常紧密的联系和沟通,确保做每一步的技术迭代都能时刻得到最真实的反馈。
可懂度达85%,年底将规模应用
对于做手语“数字人”的目标,按照陈伟的话来说,是希望能够生产出高品质的、符合国家标准的手语内容的视频,或者手语的表达,从而能够真正提升手语的普及力度和应用力度。
陈伟介绍称,手语“数字人”的价值包括两个方向,一个是让听障人士更好地把信息表达出去,另外一个是让听障人士更多地接受外界信息。从技术路径来看,搜狗目前先解决的是表达问题,后面会再解决手语识别的问题,乃至难度更高的手语生成的问题。
不过,他认为,在现阶段,大家对手语这件事儿还不是很友好,在识别和合成上都有问题,比如目前市面上的手语没有遵循听障人士的语序,表情也少,听障人士看不懂。“所以手语识别这块,需要得拿出做手语‘数字人’的决心才能做好。”
目前,搜狗发布的手语“数字人”仅是最初始的版本,在常用口语场景下,可懂度差不多在85%左右,预计在年底还会有更好效果的版本推出。而随着搜狗手语“数字人”的正式发布,如何落地应用也成为关键。陈伟表示,预计手语“数字人”将在今年Q4能够做到规模应用。
据陈伟团队成员介绍,目前手语数字人主要考虑听障人士在实时场景和非实时场景的应用。实时场景具体包括重要实时新闻信息、各类大会活动等直播,以及公共信息广播类的场景。未来实时场景,会把手语放到人机交互的环境里面,把目前以语音为主的人机交互推向多模态,跟动作结合起来,让听障人士能够跟和机器进行更自主的交流。非实时场景主要是围绕偏文化娱乐生活相关,比如没有字幕的电视栏目、影视作品等。
“无论是面向实时直播还是视频内容生产,我们希望可以借助手语‘数字人’的能力帮助把视频内容、文字内容视频化,用听障人士熟悉的方式给他们传递信息。”陈伟表示,传统广电行业、长短视频网站、新闻媒体等会是今年主要聚焦的方向。
作为刚刚发布的初代产品,手语“数字人”远远还未达到终点。目前,手语“数字人”只能初步解决常用口语,或是常用语境下的语言,或是直译场景语言,背后的引申意义,更高层次的翻译、更广泛的应用都还需要花时间。
“这是件让我们团队觉得功德无量,特别有意义的事,但将来想让手语‘数字人’做到更高水平,还需要很长的路要走。”陈伟说。
网址:搜狗陈伟:手语“数字人”助听障人士更好获取信息,年底规模应用 http://c.mxgxt.com/news/view/564855
相关内容
帮助听障人士获取信息、表达想法——“我们沟通更顺畅了”石城川:让听障人士“看见”声音
无障碍沟通软件、人工耳蜗……科技助力听障群体重获新“声”
听障人士的“有声桥梁”:百度智能云曦灵
手语“话务员”杨欢晶:让听障人士得到平等的公共服务
听障口语者VS听障手语者,你了解多少?
听障人士怎么才能听音乐?
从明星名人个人信息遭倒卖讲起,手机信息安全如何保障?
新闻周刊丨手语“话务员”杨欢晶:让听障人士得到平等的公共服务
用科技力量,让更多视、听障人士共享文化发展红利