本篇文章2862字,读完约7分钟
语音交互时代
目前,语音交互似乎正在经历一个爆炸性的时期,而智能语音技术经历了几十年的发展,正在沉淀成熟。一个明显的趋势是语音识别已经广泛应用于智能手机。然而,由于语音输入模式不稳定,应用场景有限,行业内仍有智能语音市场。智能语音市场长期以来给人们一种属于“大公司游戏”的视觉。然而,智能语音技术只不过是一种工具或技术,它的普及还需要依靠一定的产业形式。
目前,大量硬件产品正在寻求与智能语音技术公司的合作。一些个性化的匹配智能语音识别功能可以在特定场景中带来更好的用户体验。这也促进了不同行业围绕智能语音这一新的互动模式的融合。
当罗永好站在舞台上展示基于HKUST讯飞(002230,BUY)智能语音技术的m1 hammer手机时,一些人开始在舞台外唱出这款应用的前景,一位网友在智虎上评论道:“两周后就会被遗忘。”这代表了一些人对智能语音技术的看法。
这种糟糕的演唱有其自身的原因:相对于语音到文本的方式,直接输入的方式已经被广泛使用。此外,语音输入方式不稳定。
智能语音识别领域似乎一直是大公司的游戏:长期和高投资使得短期内难以看到回报,甚至可能发现没有实际应用的平台。因此,开放战略是每个专注于智能语音技术的R&D公司的选择。
但一个明显的趋势是,大量硬件产品正在寻求与智能语音技术公司合作。一些个性化的匹配智能语音识别功能可以在特定场景中带来更好的用户体验。这也促进了不同行业围绕智能语音这一新的互动模式的融合。
smokin aces
事实上,当你打开身边的任何手机或电脑,你会发现智能语音技术已经无处不在。无论是iphone中的siri,安卓手机中的谷歌,甚至是装有win10的pc,cortana都处于一个特别引人注目的位置。
当你打开手中的iphone时,使用搜狗输入法:它也支持将语音转换成文本。使用微信时,“语音输入”也隐藏在功能栏中。如果你是一个热衷于新技术的年轻人,恐怕你会发现手表、家用音响甚至耳机都可以和你“交谈”,并理解你发出的简单指令。
这是一项覆盖面很广的技术,但是各种产品的特点和能力是不均衡的。而且,当它被用来扮演输入的角色时,它被证明是不够被用户喜欢的。就像你的手机里有siri一样,但是只有少数用户用它来帮助他们工作。
在上述公司中,诞生了两种智能语音技术公司,一种是直接面向用户,另一种是向企业开放服务。例如,siri首次出现在史蒂夫·乔布斯(Steve Jobs)遗留的iphone4s中,而底层语音技术来自世界领先的语音识别软件公司nuance。
这两类企业在国内外也形成了各自的代表,如百度、搜狗、白鲸、萧冰和微软旗下的科塔纳在国内都属于c方,而HKUST的讯飞、云芝生、灵和细微差别在国外都聚集在b方。
然而,不管它面对的是哪一端,智能语音技术无法回避的一个指标是准确性。好消息是,近年来HKUST讯飞和微软的语音识别准确率都有所提高,微软在10月18日宣布将进一步把单词错误率降低到5.9%。
但是技术瓶颈仍然存在。一方面,在嘈杂的环境中,智能语音识别的准确率目前会大大降低,另一方面,它是提高准确率的上限。事实上,语音识别技术的准确率在过去十年里有了突飞猛进的提高,但是再升级就越来越难了。
很少有初创公司在智能语音技术中扮演重要角色。即使是智能语音也没有成为投资者的热点:与人才相比,智能语音市场从来就不是一个强大的资本领域。
“投资智能语音技术不是一个好的选择,但投资的选择相对较少。”创新工场前投资经理孙志超在接受《21世纪经济报道》采访时表示,他相信在智能语音技术市场,“最好的投资就足够了。”此外,一些投资者告诉《21世纪经济报道》,目前,智能语音技术很难成为热点。与前两年的o2o市场或今年的直播领域相比,智能语音技术创业的门槛更高。
正是因为门槛高,智能语音市场长期以来给人一种“大公司游戏”的视觉归属感。一方面,这项技术需要大量的长期投资,而且往往很难在短期内带来回报。对于像微软这样的公司,承担这一角色的是研究所而不是公司部门;另一方面,由于智能语音技术需要技术储备和海量数据积累,大公司往往在这方面有优势。
Mobvoi是典型的c人工智能公司,它将智能语音技术与各种硬件产品相结合。Mobvoi首席执行官李志飞在接受《21世纪经济报道》采访时表示,作为一名企业家,行业对手通常是企业中的某个部门。他经常被问到的问题是,如何应对来自百度等公司的竞争。
工业一体化
一些公司选择利用资本来缩小与竞争对手的差距。亚马逊推出的Echo是一款基于智能语音技术的产品。与微软等公司相比,亚马逊开发语音技术较晚,但自2011年以来,亚马逊收购了大量语音公司。
但并非所有人都同意资本进入市场的运作方式。在一次采访中,HKUST讯飞董事长刘庆峰告诉《21世纪经济报道》,他认为通过资本收购和其他方式发展人工智能是不明智的。刘庆峰认为,HKUST讯飞应该被定义为华为式的公司。事实上,情况也是如此。在IFlytek的发展过程中,HKUST只收到了极少数投资者的注资。
在亚马逊收购的一系列公司中,包括语音公司yap和语音技术公司evi,他们研究了语音转文本和增强语音识别在商品搜索中的应用,并于2013年收购了波兰语音技术公司ivona software。这与echo的产品定位有关。
Echo本身是亚马逊推出的一款音频产品,但亚马逊可以通过它获得各种服务,比如通过语音互动购买商品。因此,它不仅仅追求语音识别的准确性,而是关注服务的购买。
此举也欢迎中国的模仿者。例如,京东智能和科达讯飞联合成立了一家公司“玲珑科技”,该公司还推出了一款智能音响,让用户可以用这款音响来叫车和下单购物。此外,具有中国特色的玲珑科技将向平台第三方服务提供商提供补贴,吸引他们落户平台。
从长远来看,智能语音技术只不过是一种工具或技术。然而,它的普及需要依靠一定的产业形式。
李志飞告诉《21世纪经济报道》记者,他认为人工智能的研究和开发应该与实验室分开,技术应该在寻求着陆的过程中不断改进。目前,移动电话已经在汽车后视镜和智能手表领域引进了设备。此外,移动电话本身也专注于解决用户旅行等相关需求,而不仅仅是智能语音识别。
补是一家以王峰为董事长的耳机公司。该公司首席技术官吴宁告诉《21世纪经济报道》,他选择与成熟的智能语音制造商合作,为fill的耳机产品增加语音识别功能。吴宁认为,目前市场上有成熟的智能语音解决方案,但能否对接好也将考验硬件厂商的技能。
越来越多的硬件制造商寻求与智能语音制造商建立联系。但是也有像Mobvoi这样的公司选择他们自己的硬件和软件。
这样,将智能语音识别技术用于手机输入只是初步尝试。因为有成熟的手机输入方案,智能策略并没有给用户带来颠覆性的变化。因此,或许我们可以借鉴亚马逊在echo上的做法,直接切断语音交互以外的任何方式,从而培养用户使用语音交互的习惯。
可以预见,智能语音技术与其他行业的结合,尤其是硬件产品,仍在向更深的方向发展。
标题:智能语音不只是“大公司的游戏” 产业融合是趋势
地址:http://www.cfcp-wto.org/cfzx/13648.html