标签:语音识别

  • 图像处理的应用及图像处理研究工具

    最近有人问我图像处理怎么研究,怎么入门,怎么应用,我竟一时语塞。仔细想想,自己也搞了两年图像方面的研究,做个两个创新项目,发过两篇论文,也算是有点心得,于是总结总结和大家分享,希望能对大家有所帮助。在写这篇教程之前我本想多弄点插图,让文章看起来花哨一点,后来我觉得没必要这样做,大家花时间沉下心来读读文字没什么不好,况且学术和技术本身也不是多么花哨的东西。

    4天前 544 0
  • 5G网络的两大支柱应用:AR/VR和4K/8K超高清视频

    今年以来,我国AR市场热度不断升高,IDC数据显示,2020年中国AR/VR市场规模总额占全球份额的38.3%,排名第一。近日,多家手机厂商的AR眼镜相关专利和新闻被曝光,各AR初创企业的AR眼镜产品提高了各行业的生产效率,在全球新冠肺炎疫情中助力抗疫。AR眼镜为何这么火?

    2020年9月20日 745 0
  • Hot Chips盛会关于最新AI的部分产品与趋势分析

    Hot Chips,全球高性能芯片领域最负盛名的业界盛会!虽受疫情影响,本届 Hot Chips 会议报告质量依然非常之高,涵盖范围也非常之广。在 Tutorial 部分,有来自于 Google TPU 团队、Cerebras、百度的机器学习训练专题,也有来自于 Google、IBM 等的量子计算专题。会议正式内容分为 8 个 Section,包括服务器处理器、移动处理器、边缘计算和传感、GPU 和游戏架构、FPGA 和可重构架构、网络和分布式系统、机器学习训练,以及机器学习推理。受限于文章篇幅,本文将主要讨论和机器学习相关部分的产品与趋势。
           趋势一

    2020年9月18日 739 0
  • 人工智能很可能会引发行业的重大变革

      机器视觉,自然语言处理,数据分析和其他深度学习应用程序将通过从汽车和医疗保健到金融服务和零售的越来越多的行业细分,推动未来五年全球AI软件收入。

    深度学习 2020年9月10日 379 0
  • 深度学习如何融入产品检测

    深度学习在很多学术领域,比非深度学习算法往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队,其中投入最大的就是谷歌,2008年6月披露了谷歌脑项目。2014年1月谷歌收购DeepMind,然后2016年3月其开发的Alphago算法在围棋挑战赛中,战胜了韩国九段棋手李世石,证明深度学习设计出的算法可以战胜这个世界上最强的选手。

    2020年9月4日 407 0
  • 用于智能边缘计算的嵌入式深度学习推理解决方案

    在过去的几年中,人工智能领域已进入高速增长阶段,这在很大程度上受诸如深度学习(DL)和强化学习(RL)之类的机器学习方法的推动。这些技术的组合展示了在解决各种问题方面的空前性能,这些问题从以超人的角度玩Go到像专家一样诊断癌症。

    2020年9月4日 877 0
  • 应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力

    智能语音是人工智能技术的重要组成部分,包括声音前端信号处理、语音识别、语义理解、自然语言处理、语音合成等细分领域。在技术的具体落地中,消费级智能硬件是最早显示出市场潜力的赛道,从蓝牙耳机到可穿戴设备再到智能家居,各种产品都离不开相关的智能语音技术,而语音交互的第一步就是听见,声音前端信号处理的效果一定程度上制约了语音识别的效果,当前也有一些公司正在解决这一让各类产品“听得更清晰”的问题。

    36氪日前接触到的「大象声科」,是一家专注于机器听觉的人工智能公司。该公司于2017年在深圳成立,致力于应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力。据了解,「大象声科」技术的理论基础为CASA(计算机听觉场景分析)+DNN(深度神经网络技术)。CASA 解决的问题是基于人的听觉原理来实现声源分离,该理论的奠基人汪德亮教授也是「大象声科」的首席科学家和联合创始人。公司通过将CASA和深度学习相结合,在业内首家成功实现大规模商用级的噪音和人声的分离,后续有望进一步解决鸡尾酒会问题。(注:鸡尾酒会问题是语音识别领域的痛点和难点,人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号)

    公司创始人兼CEO苗健彰向记者对比了传统信号处理和基于深度学习的信号处理方式的差别——传统的数字信号处理方式主要依据固定噪音特性和方向,通过滤波器对信号进行相应的过滤和增强。但因为生活中的噪音不一定存在固定特性,并可能来自于各种方向反射,所以传统方式或许无法彻底解决复杂噪声环境中的问题。而CASA+DNN的方案是让机器通过训练获得与人类听觉感知相似的机制,从而去认知周边的声场环境,在复杂场景中提取、识别人声。

    在技术产业化这一块,「大象声科」首先从“降噪”切入,一方面解决通讯过程中的噪音干扰问题,让人们在复杂的现实噪声场景中拥有更加清晰、更加私密的通话体验;另一方面解决语音识别中噪声干扰问题,让机器在“听清”之后听得“更懂”。为此,公司推出了Vocplus智能语音增强和Vocplus Smart智能语音交互方案,目前已经在手机、耳机、PC、对讲机、VoIP、IoT等行业成功落地。

    在研发过程中,苗健彰认为,把技术从理论进行工程落地转化是最大的难点,其中将神经网络小型化和模型的泛化是决定深度学习能否应用于实际产品中的重要环节。“大象声科在这方面有一套独特的技术,能够在不损失精度的情况下,使得算法参数尽量少,计算速度尽量快,这也是为什么目前我们的深度学习降噪算法快速落地到像耳机这类可穿戴产品。另外,市面上已经有上千万台设备搭载了公司的算法,帮助公司沉淀了大量数据。大象声科将人耳的听觉机理与深度学习相结合,也大幅提升了算法的泛化性能,形成了较高的技术壁垒。”他介绍。

    相较而言,公司目前在手机、耳机等消费电子行业有比较多的应用案例,这和行业本身的需求和规模相关。“现在中国绝大部分的手机品牌,比如小米、OPPO、vivo都已经有使用「大象声科」的通话降噪技术(Vocplus Telecom)以及游戏抗啸叫技术(DHS)的量产案例。”苗健彰说。在前不久发布的华为FreeLace Pro耳机上,也搭载了公司的Vocplus AI三麦通话降噪方案。

    此外,自去年以来的TWS耳机增长浪潮,也让越来越多的耳机厂商逐渐采纳以AI技术为主导的通话降噪方案。「大象声科」是率先在蓝牙耳机上落地AI语音降噪的公司,首个成功量产案例是OPPO Enco Q1 。并且,2020年「大象声科」与漫步者合作,成功落地了第一个AI算法结合骨传导sensor的通话降噪方案,可以让TWS耳机在通话时完全屏蔽周围噪音(包含人声噪音在内),实现私密性更强的通话体验。

    谈及客户方的具体考量维度,苗健彰介绍客户主要会围绕通话清晰度进行评价,在这方面,业内有一套衡量通话降噪效果的客观标准3QUEST,测试指标包括:S-MOS(人声保留程度),N-MOS(噪音消除程度),G-MOS(综合通话降噪性能),而公司由于采用较独特的AI技术,在测评中得以展现优势。

    在产业合作上,「大象声科」目前已与Qualcomm,CEVA,Cirrus Logic,Infineon,Rockchip和BES等国内外知名芯片厂商建立合作关系。其中值得一提的是,公司在2018年拿到了小米和高通的融资,并在之后和高通一起进行联合技术推广,这也为公司在市场拓展和品牌建设方面提供了一定帮助。在收费模式上,大象有按照license授权和按项目收费两种方式,当前license总装机量在数千万级别,今年的营收在数千万元量级。

    在未来的行业延展中,「大象声科」计划进一步完善整个语音技术链条,把应用场景从近场拓展到远场,为更多行业如助听器、智能家居、会议系统、智能车载等带来更精准更智能的语音解决方案。

    团队方面,公司创始人兼CEO苗健彰UBC软件工程学硕士毕业,曾就职于IBM、RBC等500强企业,并在加拿大成功创办过一家软件公司 。联合创始人兼首席科学家汪德亮教授是计算机听觉场景分析奠基人之一,也是全球首位将深度学习应用于语音增强的科学家。联合创始人兼CTO张学良多年从事语音分离、增强算法研发工作,是内蒙古大学计算机学院教授。

    深度学习 2020年9月2日 947 0
  • 万物互联的IoT时代,如何在云中聚合大量数据?

    NTT官方8月24日消息,NTT实现了一种边缘计算环境下的异步分布式深度学习技术(Edge-consensus Learning)。在当前的机器学习中,尤其是深度学习中,通常在一个地方(云)收集数据并学习如图像/语音识别之类的模型。

    2020年8月29日 353 0
  • 工智能技术对智能家居领域中的影响

    导 读:人类对人工智能的探索就像一次征服汪洋大海的过程。从上世纪中期人工智能起步,到如今探索人工智能与应用场景的深度结合,在“船舶”和“动力”已经得到极大保障的前提下,“航海图”中一旦出现训练数据偏差或者缺少数据支持,那我们与目的地将会背道而驰,相距愈远。

    2020年8月28日 622 0
  • AI与机器学习和深度学习是何关系?

    人工智能已经从高高在上的技术走向多场景应用,在这个进程中,嵌入式技术将成为AI落地的重要承载平台。  不久前,2020世界人工智能大会云端峰会(WAIC)在上海刚刚落幕,人工智能概念又一次被行业点燃。大会上,业界大佬云聚一堂,共话AI创新,探讨人工智能治理方案。  李彦宏表示,AI的发展将经历三个大的历史阶段。第一个阶段是技术的智能化,第二阶段叫做经济的智能化,第三个阶段叫做社会的智能化。目前,我们正处于从经济智能化的前半段向后半段过渡的时期。  马斯克表示,如果一定要把AI分成三个类别,感知、认知和行动,那么目前已经做到了感知,认知是目前最薄弱的环节。  而丁磊表示,人工智能不是技术问题,是应用场景问题,选对了应用场景,发挥的效率就非常高。  可以看出,科技大佬们的观点不谋而合,目前人工智能已经从技术走向应用,如何将AI技术真正落地,解决每个应用场景中人们的实际需求,才最关键。而在这个过程中,嵌入式技术将成为AI落地的重要承载平台。

    2020年8月28日 688 0
  • 虚拟现实的五大关键技术盘点

      1、计算机图形技术   用计算机生成、显示、绘制图形的技术被称为计算机图形技术。计算机中的图形也是以数据的形式表示的,要把图形显示出来或绘制打印,就必须把数据转换成线条。计算机图形技术不仅能快速、准确、规范地制作大量的机械图、建筑图、电路图和地理图等,成为计算机辅助设计的重要内容,而且可以制作运动图形和三维图形,使原来绘图做不到的事得以实现。

    AR/VR 2020年8月27日 878 0
  • 荣邦智能 AI 语音模组方案拥有哪四大技术优势?

    据悉,在海思 SoC Wi-Fi IoT 芯片的加持下,荣邦智能 AI 语音模组方案在格力电器 AI 语音空调“月亮女神”上面实现产品量产,是首个基于全国产技术平台、面向家电应用的高性能 AI 一体化解决方案。

    2020年8月13日 587 0
  • 5G助力VR技术,产业链机遇分析

    1. VR/AR 将成为 5G 生态杀手级应用 VR/AR 和 5G 技术密不可分。2015 年-2016 年 VR/AR 大热,成为消费电子的一个亮点,但是很快 VR/AR 的发展便遇到困境。带宽和延时的因素导致互动体验不强和终 端移动性差、分辨率和刷新率低等痛点问题,一直是遏制行业发展的最大短板。而 5G 网络的大带宽和低时延特性,将着重解决这些问题。5G 的大带宽的特性,提供高速网 络,可以渲染云端内容,解决运算压力;另一方面,低时延的特性将会解决戴上眼镜之 后的眩晕感。

    2020年8月12日 413 0
  • Snap用VR/AR滤镜留住了年轻人

    “阅后即焚”社交平台 Snapchat 目前作为在当下美国年轻人中影响力最大的社交平台之一,近期发布了一系列功能更新,展示了该平台在娱乐、游戏、营销和购物方面的雄心。

    AR/VR 2020年8月12日 405 0
  • VR全景行业将受5G影响而全面发展

    对于5G的概念,不少人理解为网速比4G快一些,延时相对4G更低。事实上,它的价值侧重于前沿技术,不应仅仅是上网体验。通过技术改变生活,这是发展5G通讯技术的意义。而在改变的过程中, 5G时代会给我们带来源源不断的创业机会。

    AR/VR 2020年8月11日 672 0

联系我们

在线咨询:点击这里给我发消息

邮件:78799268@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code