这款音箱的诞生也代表阿里对语音交互的重视,体现了其试图抢占物联网入口的企图。
7月5日,阿里巴巴第一款人工智能音箱:天猫精灵X1正式落地。
此前界面新闻报道过这款人工智能音箱的定价、基本硬件参数。阿里人工智能实验室负责人陈丽娟告诉记者,这款音箱除了市场上常见的内容播出、提醒设置、闹钟天气等,它在购物场景上更会领先行业均值。比如,179.99美元的亚马逊Echo在购物上还是停留在以加入购物车为主,而阿里的这款“天猫精灵X1”音箱已经能够完成从回溯购买记录、挑选下单到最后支付的整个过程。这主要得益于其搭载了内置第一代中文人机交流系统AliGenie。这是阿里第一次正式发布智能音箱产品和中文人机交流系统。这款音箱的诞生也代表阿里对语音交互的重视,体现了其试图抢占物联网入口的企图。
淘宝上的商品成千上万,一款语音交互产品如何能挑选出消费者想要的商品?陈丽娟表示,该款产品拥有“决策力”,它会学习消费者的购物习惯、了解用户画像,然后再进行兴趣推荐。阿里在电商领域长期积累起来的技术优势可以直接用在语音交互场景下。
中美的居家环境有很大差异,所以直接将亚马逊的Echo、苹果的HomePod搬到中国市场来可能并不是很接地气。美国人使用智能音箱频率最高的场景是在厨房,做菜时需要订一个倒计时等。到了国内市场,智能硬件设备千差万别、中国用户更需要一个助手级的、对中文语音交互友好的“全能产品”。
语音交互拆解来看,可以分成语音识别、语音合成和自然语言处理等,每一个大块又可以分成更细节的处理步骤。而国内做语音行业的公司,多半停留在语音输入法(如科大讯飞),或语音搜索。真正能将语音交互商用的仍十分有限。除了产品层面,自然语音处理技术(NLP)仍是人工智能行业最有挑战的部分。
阿里正是看中了这样的市场机会和行业风口。
阿里人工智能实验室负责人陈丽娟是淘宝最早的一批产品经理。按照阿里惯常的方法,这款人工智能音箱也是采用了“淘宝模式”,即对开发者足够友好,开放API接口,接入各种智能设备和软件App。这与苹果的HomePod完全不同,苹果公司为了安全考虑,要求所有接入Homekit平台的设备都要装入特殊的MFi芯片,这无意间抬高了硬件创业公司接入苹果设备的成本。
据界面新闻记者了解,阿里大生态环境的支持将成为这款音箱最核心的优势。在软件层面,阿里音箱有阿里文娱体系下内容的支持,比如优酷的视频内容转录;目前第三方App在陆续适配,例如健身软件Keep和喜马拉雅FM等。在硬件上,有阿里智能IoE的接入,目前正在谈得包括古北科技、涂鸦科技等;品类总量在100家以上。阿里大生态环境的支持将成为这款音箱最核心的优势。
阿里鼓励用户建立自己的“语音公众号”,这部分更针对个人。在辅助的App里,用户可以录入自己的音频文件,直接在后台播放,未来还可能尝试付费模式。鼓励用户充分建立自己的语音信息,运用到具体的场景里。
虽然这款产品的名字是挂在“天猫”下面的,但足够可以看出阿里对于语音交互的重视。在这场几乎所有互联网公司都已经入场的技术大战中,阿里不希望落后。
在阿里巴巴技术团队中,流传着这样一句话:“阿里巴巴的商业掩盖了技术光芒。”不论正确与否,至少这代表了阿里的技术自信。
阿里巴巴的语音识别技术早就存在,只是一直没有对外公布。最早的应用在客服体系中,因为客服是接触语音最多的部门,客户每天会打电话进来,在客服的质检抽查中,人工质检效率低下,就需要语音技术识别、转化成文字版本,这是语音技术的第一个应用场景。
在天猫淘宝App中,都已经嵌入了语音搜索功能,神马搜索中也使用到了语音搜索技术。虽然识别的准确率有待提高,但这些都表明,阿里的语音交互产品是多年积累下来的技术,可以用在各个产品和场景中。
在接受采访时,陈丽娟强调,阿里巴巴所采用的供应商思必驰只是用了它六个麦克风阵列的架构设计,语音交互是阿里的核心技术之一。在语料的搜集上,都是使用阿里生态各产品中的语料,淘宝有4.5亿的月活,其中如果只有1%的使用语音搜索,其可训练语料都非常可观;也有一些语料采用了众包购买的方式。
未来,除了这款音箱,语音交互可能更多用于阿里生态中的购物充值、汽车操作系统、TTS语音转换(Text to Speech)等场景中。
在天猫精灵X1发布的同一天,百度也公布了基于自然语言处理的DuerOS语音系统,这与阿里巴巴的语音交互系统Ali Genie形成正面竞争。
在评价竞争对手时,陈丽娟说,“今天我们的天猫精灵大家手上就能拿得到,上手可用。但是DuerOS这个东西大家买过吗?它的差距不光只是说技术层面的,我们要把这个路都跑通,成功了才会有更多这样的合作伙伴跟我们一起玩。”
这话更直白一点,意思就是,尽管李彦宏已经坐着有人驾驶的“无人驾驶汽车”在五环上上路,DuerOS距离完全可商用产品的面市还有一段时间。
阿里智能音箱是阿里巴巴人工智能实验室出手的第一台商用产品,是语音交互能力的集中体现。
在最开始,阿里并没有想做一款语音硬件产品,因为硬件产品供应链长。但后来团队发现一款智能音箱涉及的关键环节太多,阿里放弃了完全代工的模式,转而自主研发。整个研发周期前后跨度一年,最大的难点就在于每条链路都是单线的。
比如,麦克风阵列里面需要密封,第一版产品密封性不好,稍微漏气就会影响到ASR(自动语音识别),ASR不准确会进一步影响到NLP(自然语言处理),进而影响到全局,是一个线性增长放大的蝴蝶效应。
从2017年开始,阿里巴巴正在不断加强对人工智能的人力投入,挖来前南洋理工大学终身教授王刚,还找来亚马逊资深主任科学家(Senior Principal Scientist)任小枫担任人工智能团队iDST的副院长和首席科学家等。
从组织架构上,阿里的人工智能实验室组织划分也更加明确。2013年前后成立的iDST是AI基础技术研究机构,也是2016年成立的人工智能实验室(AI Labs)的前身,其研究成果来源于iDST的技术积累,并应用于阿里巴巴的各个产品线。
在大框架上,实验室内部分为终端实验室、硬件实验室、代码实验室,并不是完全按照产品线划分。以人工智能领域很重要的计算能力来讲,在不同实验室里,计算能力又分为在云端计算和在终端上的计算能力。
AI实验室看起来更应该从事底层技术研究,阿里巴巴也没有太多硬件传统,更多定位于一家大数据驱动的公司。在解释阿里为什么会做硬件时,陈丽娟这样表述:“我们不想把它停留在实验室。AI应该是具体的服务,应该给用户带来新的体验。哪怕淘宝第一版购物体验很差,但相比于线下购物,仍然能给用户带来不一样的感觉。今天AI应该是技术产品还是产品技术,这是一个问题。”