你试过15分钟写3000字吗?除了知识储备和灵感,码字速度也是一个作者的重要技能。作为作者,剑飞最常用的码字神器就是讯飞输入法的语音输入功能。他也曾尝试用讯飞输入法一天改15
你试过15分钟写3000字吗?
除了知识储备和灵感,码字速度也是一个作者的重要技能。作为作者,剑飞最常用的码字神器就是讯飞输入法的语音输入功能。他也曾尝试用讯飞输入法一天改15万字。
虽然输入法是人们使用手机、电脑等智能设备必不可少的工具,但通常被问及哪个App最常用时,很少有人想到它。
但随着越来越多的AI技术应用到输入法中,输入法也逐渐从工具产品发展到服务产品,变得更加亲民,比如讯飞输入法中的中英文混合输入功能、AI助手提供的AI校对、AI斗图等。,为用户提供更加个性化、场景化的服务。
今年是讯飞输入法的第11个年头。讯飞输入法每年都会升级一个大版本。11月3日,今年全新升级的输入法:讯飞输入法V11.0发布。第11代讯飞输入法有五大亮点:AI语音升级、AI助手升级、AI键盘输入升级、AI表情升级和输入法App UI、App内社区改版。
全新升级的讯飞输入法能给用户带来哪些不一样的输入体验?这些升级的背后,讯飞输入法融入了哪些独特的AI能力?
为此,智东西对话科大讯飞输入法事业部总经理成昆解构了讯飞输入法的五大新亮点,进一步解开了讯飞对AI赋能输入法的逻辑和思考。
首先是语音输入的进化,应对中英文混杂和嘈杂的街头测试近年来,随着语音识别等相关技术的发展,越来越多的用户开始使用和习惯语音输入的方式。但是相比拼音输入和手写输入,语音输入还是有很大的局限性。最大的一个局限就是容易受到周围环境的影响,比如噪音大,很多人说话的嘈杂情况。如何保证更好的识别效果,是需要突破的技术难点。
成昆表示,讯飞自开始深度学习语音识别研究以来,一直在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到编解码,不断提升语音识别的效果,从而保证讯飞输入法语音输入等讯飞语音相关产品的功能持续优化。
受人耳听觉选择性注意能力的启发,讯飞提出了复杂场景下的TFMA(Temporary Feedback End-End Multi-Channel ASR)框架,重构原始语音识别过程。
传统语音识别系统
在传统的语音识别中,利用声学模型对声音进行过滤得到特征信号,利用第一识别引擎将这些特征转化为发音信息等音素,再结合语言模型将语音转化为单词。
在这个语音转文字的过程中,如果背景声音中同时有很多人在说话,传统的语音识别系统是没有办法过滤掉这么多声音的,从而影响输入法语音识别的准确性。
目前讯飞已经做了一些创新,高效利用多声道语音输入。例如,新发布的TFMA语音识别框架可以解决复杂场景下的语音识别问题。该方案的技术创新在于前端建模和优化相结合,形成了一套自下而上和自上而下的流程。同时引入了大量的专家知识,结合了神经网络和传统信号处理的优点,保证了系统的鲁棒性。
TFMA语音识别框架
通过使用TFMA语音识别框架,讯飞的软硬件产品,包括讯飞的输入法,都受益匪浅。这些产品的语音识别能力在高噪音、多人说话、窃窃私语等复杂场景下再次得到提升,尤其是在-10分贝到-15分贝等恶劣场景下,识别从不可用变为可用甚至好用。
成昆表示,除了在复杂场景下识别率的提升,第11代讯飞输入法在发音上还有一个提升,就是有更多可识别的语言。讯飞输入法的这个最新版本现在支持12种外语的语音输入和语音翻译,包括阿拉伯语、俄语、意大利语和英语。
成昆补充道,多语种和以往方言语音输入法的实现,有赖于讯飞的统一建模技术。把各种语言材料和方言放在一个模型中进行训练。在训练过程中,各种语言素材不进行拆解,训练完成后直接输出,这样即使用户普通话不那么标准,讯飞的输入法也能保证很好的识别效果。
科大讯飞输入法通过声音翻译功能自动转换成德语字符输入,如中文语音输入法。
交流中,成昆表示,从输入法发展的整个过程来看,输入法可以分为两个阶段。第一阶段是追求效率的阶段,可以定义为“1.0版本”。在这个阶段,输入法厂商解决的是如何让文字输入快速准确的问题。
因为疫情,很多工作和交流都转移到了网上。事实上,输入法的语音转文字输入功能,尤其是多语种输入功能,很好地满足了人们在线交流时快速准确的转录输入需求。
二、如何让输入法更易懂:既是百宝箱又是情感写手成昆补充说,随着互联网的发展和智能设备用户个性化需求的增加,输入法也发生了变化。解决这种个性化需求的输入法可以定义为“2.0版本”,对应三类需求。
第一种需求是用户的个性化输入需求。讯飞推出了AI助手功能来承载这一需求。比如有人喜欢用图像来表达一些内容,讯飞输入法就有直接从文字到图片的斗图功能。
科大讯飞AI涂鸦功能,输入文字自动推荐图片。
第二种个性化需求是很多人的投入是为了解决某一类问题。讯飞还根据用户需求在输入法中内置搜索,缩短了用户需求实现的路径。
成昆表示,这一功能的实现实际上是依靠讯飞最新的本地化意图识别引擎来分析用户的意图,进而为用户提供有针对性的服务。
科大讯飞内置的搜索功能
第三类是情感需求。讯飞希望输入法的AI助手能够像真正的助手一样,能够主动为用户提供一些推荐和服务,比如在社区论坛发帖的过程中向用户推荐文案,在聊天时为用户提供更丰富的表达,帮助校对错别字,在用户想要获得一个好评的时候帮助用户书写等等。
在这个过程中,会用到一些自然语言处理(NLP)技术,直接在本地进行分词分析,感知用户想要表达的内容。此外,本地化的NLP技术对用户来说会更好、更安全。
输入法讯飞AI发帖助手、AI聊天助手和AI赞助手功能
成昆还在AI助手中分享了讯飞输入法未来的一些目标。他表示,讯飞输入法目前的版本可以定义为从追求效率的“1.0版本”向追求情感感知的“2.0版本”过渡。所以场景的覆盖也不是那么全。讯飞先选取用户使用频率高的一些场景,比如社交、论坛、电商等进行适配,未来会逐步拓展,比如直播场景、用户写作场景等。
而且讯飞输入法想提供的不仅仅是输入工具的功能,还有未来的后续服务环节。比如目前可以直接在讯飞输入法界面搜索,不需要跳出输入界面。以后买东西可能会输入商品名称,输入法会串联一个比价功能等等。
“其实讯飞输入法就是这样一款在整个讯飞产品中使用人工智能技术较多的产品。”成昆表示,除了语音技术和AI助手,讯飞输入法的图像识别功能和任意手写输入功能还集成了讯飞自研的多项AI技术,可以识别手写和打印表格,还可以执行批改学生作业等多种功能。
科大讯飞输入法的图像识别功能
三。输入法的未来在元宇宙吗?除了提升输入法的AI能力,讯飞还对输入法的界面进行了改版,第11代讯飞输入法的键盘变得更加圆润。
成昆提到,讯飞根据用户本身的特点,对一些页面做了一些针对性的优化。
科大讯飞应用页面和键盘页面
输入法是人机交互的重要工具。除了常用的手机和电脑,汽车,可穿戴设备等。都需要输入法来完成操作。
比如汽车内有内置的输入法,用户对这类输入法的需求和使用手机时是不一样的。使用汽车输入法的目的更多的是搜索,搜索地名导航,搜索歌曲提神等等;像智能手表对输入法的需求也和其他设备不一样。讯飞的语音输入功能对于像智能手表这种小屏幕的智能设备会有更好的输入体验。
智能手表输入接口
谈到输入法的交互能力,成昆也分享了对输入法未来发展的一些看法。输入法的字符输入功能可能只是其功能的一部分,未来输入法可能更像助手一样存在。
像最近业界热议的元宇宙,用户如何与虚拟世界进行交互,可能不仅仅是使用常用的键盘或者文字输入的形式,而是以类似于现实中人与人之间语音对话的形式进行交互。
除了语音交互,在元宇宙的虚拟世界中,人们还需要用图像进行交互,识别交互的另一方。再有就是讯飞正在布局的虚拟形象,通过一个虚拟形象来代表用户自己在虚拟世界中的身份,然后结合语音技术和图像技术,实现更好的交互。
科大讯飞推出虚拟人互动平台
结论:从快速准确到AI时代的个性化输入法随着输入法准确度和快速输入能力的提高,用户对输入的需求也越来越大。讯飞给出了针对性的输入解决方案,包括语音输入、图片输入、AI校对、AI助手等等,考虑了各类用户在不同场景下的需求。
谈到讯飞输入法,成昆表示,现在讯飞输入法的大部分用户都主动从手机应用市场下载安装讯飞输入法,因为讯飞充分考虑了用户的个性化需求。
如何利用AI更精准地匹配用户的个性化需求,可能是未来输入法领域的重要竞争点。