我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语音合成 >

新知丨智能语音合成帮你“读诗成曲” —江苏技术成就“爆款”

归档日期:06-06       文本归类:语音合成      文章编辑:爱尚语录

  互联网技术正悄无声息地改变着我们,就像一种“新重力”,它无处不在又让人习以为常……读取、分析你的声音片段,就可以用你声音说话,甚至歌唱,作为人工智能中的关键一环,语音识别早已不是难事,而更为生动的“语音合成”技术,则将成为下一阶段的关键“赛点”。

  日前央视节目《经典咏流传》第二季节目,因为一个技术“爆款”,而频频问鼎各路社交“热搜榜”。这是一个“读诗成曲”的在线互动小工具,仅仅打开一个H5,扫扫二维码,朗诵一段诗词,就可以听到自己声音演唱的歌曲。这并不是什么“神仙”魔法,恰是目前人工智能领域大热的“语音合成”技术。

  “学”唱一首歌需要多久?一天,5小时,还是1小时?央视八点档节目《经典咏流传》现场“开练”,只要30秒,就可以为你呈现一首原声歌曲。电视这头是当红“小生”王源演唱的《长歌行》,电视另一头,则是14万观众响应“邀请”,共同感受、见证这场AI“语音合成”的技术变革。据统计,节目播出的90分钟内,共有10万多名网友转发这一充满互动趣味的H5小游戏。

  记者扫码进入H5界面,尝鲜开启“读诗成曲”游戏玩法的探索模式。首先,需要戳选自己的音色,男声、女声或者童声,随后,页面跳转到一个经典诗词曲库,可以选择自己喜欢的歌曲。紧接着,“见证奇迹”的30秒就来了,你对着话筒大声朗读所选曲目的歌词(也是诗词),上传后稍等几秒,你朗读的诗词就会被自动转换成由宫商角徵羽组成的旋律。“人有悲欢离合,月有阴晴圆缺,此事古难全,但愿人长久,千里共婵娟……”一首你未曾哼唱过一个音调的歌曲,就在你朗诵之后,完全以你的原声,毫无破音、也不走调的,惊艳呈现,不禁令人大呼神奇。“人工智能识别我的声音,如今居然还能快速模仿我的声音,这很‘硬核’。”扫码尝试的网友惊喜地留言表示,合成歌曲后立刻转发朋友圈,“炫耀”了一番,没想到这一次“新技术”以这样有趣、日常的方式,走进大众视野。

  除了能够模仿用户声音,它还能融入大牌歌手的画“花式”唱腔,最终合成的歌声彷佛加了声音“滤镜”,显得更“高级”,更曼妙。例如许多观众喜欢谭维维唱的《墨梅》、《山高路远》,但她的音域宽广,唱腔独特,没有音乐功底的人,很难模仿。但在“读诗成曲”的小游戏里,利用特别的个性化声音识别技术,能让你在保留自己原声的同时融进“谭式”唱法,更大程度地满足你的“歌唱梦”。

  《三字经》、《声律启蒙》这样的启蒙经典也在“读诗成曲”的曲库中。大声朗读其中的段落就可以成歌,听着自己唱的这首歌曲,还可以加快背诵经典的速度,加深记忆。“传统文化携手人工智能,让曲高和众成为可能。通过亿万个小屏,人人都可以传唱诗词传播经典。”央视该节目相关负责人谈到,当传承数千年的中国诗词文化,遇见最前沿的AI语音技术, “读诗成曲”这样接地气的重温经典、传承文化的方式,势必令古诗词焕发新的韵味。

  短短一段语音朗诵,经AI之手的分析计算、润色包装,就变成了婉转流利的歌曲。鲜为人知的是,“读诗成曲”的技术支撑是一家来自江苏的企业——思必驰。“这个小游戏,主要应用的是语音技术,尤其是个性化歌声合成技术。”思必驰副总裁兼北京研发院院长初敏告诉记者,从一段用户读出的语音到形成个性化的歌曲,从技术角度来说,分为2大处理阶段,即语音识别与语音合成,后者又再细分为两部分,即声学模型加持、韵律模型调节韵律参数。

  所谓声学模拟加持,说通俗了就是,收集你的声音数据,形成训练模型,再通过个性化学习后,让生成歌曲的音色像你本人。韵律模型调节韵律参数,则是控制每个音的长短、高低,让旋律对上音拍,自然流畅起来。随后,只要将韵律参数和频谱参数结合,生成歌声,一段你的音色演绎的,旋律似原唱的片段就合成好了。整个流程下来,1~2秒即可合成成功,初敏表示,这一系统,至少支持10万人同时点击使用,并秒出结果。

  在大众看来还略有新奇的“语音合成”技术,却早已是业界暗涌争夺的“新滩地”。早在2016年谷歌就通过在加拿大蒙特利尔大学建立的人工智能实验室,试水“语音合成”技术,去年,这一项目取得突破性进展——能够在1分钟内模仿任何声音,和普通声音合成软件相比,它能够分析出每个人说话的独特语调。之所以能产生高还原度的合成声音,谷歌依靠的是神经网络和机器学习技术,神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理。它利用分层的神经元,从大量样本数据中总结出共同特征。

  “不同的声音中包含了很多信息。”神经网络能够从声音样本中抓取关键特征,如音色、音调、音节、停顿等等,而这些关键特征足够定义一个人的声音,这跟人们根据声音判断说话者是一个道理。谷歌该项目的创始人亚历山大·布雷比松把这些关键特征比作声音的DNA,“在学习了很多不同讲话者的声音后,学习一个全新的陌生声音就会快很多,一分钟就足够捕捉声音的DNA中的大部分信息了。”

  有了这项技术,网络上的流行混剪视频的制作将容易很多,制作者只需把画面剪切在一起,完全可以生成你需要的任何声音。除了这类应用以外,这种声音合成技术还能在更多的场景中派上用场,比如说为失语者配音等,甚至可以把它想象成一款声音脑洞编辑器,让我们的生活更有趣。

  道德线一直是高悬于“新技术”之上的利剑,无论技术变革把生活包装的如何花团锦簇、摇曳多姿,我们都不能忽略技术漏洞带来的隐患。语音合成技术的漏洞显而易见,但不在于技术本身,而在于使用它的人。

  “目前,法庭上还将录音作为一项重要的证据,在语音合成技术快速发展的未来几年,司法部门恐怕应该重新判定‘录音’这一证据的有效性。”业界不少观点认为,随着语音合成技术的发展,声音的“安全性”应被高度重视。一旦,机器拥有自然、逼真,有情感、高表现力的声音时,它会像个“通关指纹”,肆无忌惮地闯入从前人们原本设定好的“禁区”,成为威胁社会安全的一把利刃。

  不过,面对新技术,因噎废食并不是个理智的态度,除了技术变革的不可逆之外,我们也必须看到语音合成在娱乐之外,贴近人性、务实有为的魅力。在去年重阳节,搜狗联合人民网发布了一则公益短片——罹患阿尔茨海默症的老人在老伴故去后独自生活,但是老伴的声音通过搜狗语音合成技术得到了重现,一直陪伴在老人的身边。温暖人性是“硬核”技术永恒的内涵、不变的发展方向。将可视的蒙古文转化为声音,让机器可以像人一样开口说蒙古语。能达到自然人发音水准的蒙古语语音合成系统,去年年底在内蒙古自治区呼和浩特市问世,该成果填补了我国蒙古语语音合成系统的空白。

  如今,越来越多的语音识别技术开始融入到人们的工作生活中,在一些领域语音识别已经凸显出优势。当然,目前语音合成技术仍然需要在数据、经验、用户反馈共同作用下进行提升,此外,语音合成的数据安全,以及破译、分辨机器、人声的新技术也应该伴随着一语音“浪潮”,共生共长,生活因技术变革而精彩,却又不为其利刃所伤。

本文链接:http://thegoodfrog.com/yuyinhecheng/25.html