我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语音处理 >

机器学习系统同时处理语音和对象识别

归档日期:06-06       文本归类:语音处理      文章编辑:爱尚语录

  麻省理工学院的计算机科学家已经开发出一种系统,该系统基于图像的口头描述学习识别图像内的物体。给定图像和音频标题,模型将实时突出显示所描述图像的相关区域。

  与当前的语音识别技术不同,该模型不需要手动转录和对其训练的示例进行注释。相反,它直接从原始图像中记录的语音剪辑和对象中学习单词,并将它们相互关联。

  该模型目前只能识别几百种不同的单词和对象类型。但是研究人员希望有一天他们的语音对象识别技术可以节省大量的手工劳动时间,并在语音和图像识别方面打开新的大门。

  例如,Siri和Google Voice等语音识别系统需要转录数千小时的语音录音。使用这些数据,系统学习用特定单词映射语音信号。当新术语进入我们的词典时,这种方法尤其成问题,并且系统必须重新训练。

  “我们希望以更自然的方式进行语音识别,利用人类可以使用的其他信号和信息,但机器学习算法通常无法访问。我们的想法是以类似于让孩子走遍世界并叙述你所看到的内容的方式训练模型,“计算机科学与人工智能实验室(CSAIL)和口语系统研究员David Harwath说。组。Harwath共同撰写了一篇描述最近欧洲计算机视觉会议上提出的模型的论文。

  在这篇论文中,研究人员在一个金发和蓝眼睛的年轻女孩的图像上展示了他们的模型,穿着一件蓝色的连衣裙,背景是红色屋顶的白色灯塔。该模型学会了将图像中的哪些像素与“女孩”,“金发”,“蓝眼睛”,“蓝色礼服”,“白灯屋”和“红色屋顶”相对应。当音频字幕为然后,模型会按照描述的方式突出显示图像中的每个对象。

  一个有希望的应用是学习不同语言之间的翻译,而不需要双语注释器。在全世界估计的7,000种语言中,只有100种具有足够的语音识别转录数据。然而,考虑两种不同语言的说话者描述相同图像的情况。如果模型从语言A学习与图像中的对象相对应的语音信号,并且学习语言B中与那些相同对象相对应的信号,则可以假设这两个信号 - 和匹配的单词 - 是彼此的翻译。

  “有一种Babel Fish型机制的潜力,”Harwath说,指的是“银河系漫游指南”中的虚构生活耳机,它将不同的语言翻译成佩戴者。

  这项工作扩展了Harwath,Glass和Torralba开发的早期模型,该模型将语音与主题相关图像组相关联。在之前的研究中,他们将来自分类数据库的场景图像放在众包Mechanical Turk平台上。然后他们让人们将这些图像描述为对孩子的叙述,大约10秒钟。他们汇集了20多万对图像和音频字幕,分为数百种不同的类别,如海滩,商场,城市街道和卧室。

  然后,他们设计了一个由两个独立的卷积神经网络(CNN)组成的模型。一个处理图像,一个处理频谱图,音频信号随时间变化的视觉表示。模型的最高层计算两个网络的输出,并将语音模式与图像数据进行映射。

  例如,研究人员将提供模型标题A和图像A,这是正确的。然后,他们会给它一个带有图像A的随机标题B,这是一个不正确的配对。在将数千个错误字幕与图像A进行比较之后,模型学习与图像A对应的语音信号,并将这些信号与字幕中的字相关联。如2016年的一项研究所述,该模型学会了例如挑选出与“水”相对应的信号,并用水体检索图像。

  “但它没有提供一种方式来说,这是一个确切的时间点,有人说一个特定的词,指的是那个特定的像素片,”哈瓦斯说。

  在新论文中,研究人员修改了模型,将特定单词与特定的像素块相关联。研究人员在同一个数据库上训练了该模型,但总共有400,000个图像标题对。他们提供了1000个随机对进行测试。

  在训练中,模型同样给出了正确和不正确的图像和标题。但这次,图像分析CNN将图像划分为由像素块组成的单元网格。音频分析CNN将频谱图分成例如一秒的片段以捕获一个或两个字。

  使用正确的图像和标题对,模型将网格的第一个单元格与第一个音频段匹配,然后将相同的单元格与第二个音频段匹配,依此类推,直到每个网格单元格和所有网格单元格时间段。对于每个单元和音频段,它提供相似性分数,取决于信号与对象的对应程度。

  挑战在于,在训练期间,模型无法访问语音和图像之间的任何真实对齐信息。“这篇论文的最大贡献,”Harwath说,“证明这些跨模态对齐可以通过简单地教授网络来自动推断出哪些图像和字幕属于一起,而哪些对没有。”

  作者将语音标题的波形与图像像素之间的自动学习关联称为“匹配图”。在对数千个图像标题对进行训练之后,网络将这些对齐缩小到表示该匹配图中特定对象的特定单词。

  “这有点像大爆炸,物质真正分散,然后合并成行星和恒星,”哈瓦斯说。“预测开始分散在各处,但是,当你进行训练时,它们会聚合成一个对齐,代表口语和视觉对象之间有意义的语义基础。”

本文链接:http://thegoodfrog.com/yuyinchuli/13.html

上一篇:百度全资收购KITTAI 免费开放语音处理

下一篇:没有了