我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语音识别 >

Mozilla正在进行众包语音识别 以使AI为人们服务

归档日期:06-24       文本归类:语音识别      文章编辑:爱尚语录

  数据对于建立伟大的人工智能至关重要 - 在工业革命期间,该领域的研究人员将其与煤炭进行了比较。拥有它的人将会前进。那些没有的人将被遗忘。在当前的人工智能热潮中,很明显谁拥有它:谷歌,Facebook和百度等科技巨头。

  这是令人担忧的消息。毕竟,这些公司中的许多公司在搜索和社交媒体等领域几乎都处于垄断地位。他们的位置帮助他们收集数据,这有助于他们建立更好的AI,这有助于他们保持领先于竞争对手。对于公司本身而言,这是一个良性循环,但如果没有可行的竞争,公司可以 - 并且确实 - 滥用其主导地位。

  现在,来自Mozilla(Firefox浏览器的非营利性创建者)的一个新项目正在试验数据垄断的替代方案,要求用户汇集信息以便为开源AI计划提供支持。该公司的第一个项目名为Common Voice,Mozilla要求志愿者捐赠声音样本,以建立一个开源语音识别系统,如为Siri和Alexa提供支持。

  Mozilla新兴技术副总裁肖恩怀特告诉The Verge,“目前,控制语音识别的能力最终只能在少数人手中,我们不希望看到这一点。” 他说要获取数据,大公司“只能过滤掉所有内容”,但对于其他玩家来说,还需要其他方法。“对我们来说,有趣的问题是,我们能做到这一点,以便创建数据的人也受益吗?”他问道。

  目前,Mozilla正在收集数据,但计划在今年年底之前提供开源语音识别功能。(它会进入Firefox浏览器吗?怀特不会说,但补充说:“我们已经计划了一些实验。”)目前,任何人都可以通过读出来到Common Voice网站并“捐赠”他们的声音例句。他们还可以提供年龄,地点,性别和口音等传记信息。怀特说,这些信息将有助于Mozilla避免偏见创建其语音识别系统,并确保该技术可以处理重音 - 谷歌和苹果仍在努力解决这个问题。

  Privacy International的研究员Frederike Kaltheuner表示,这些公司经常使用人工智能作为挖掘有价值的个人数据的“借口”,告诉用户它将使他们能够改善某些服务。她说,这可能是真的,但是为整个社会分享这些数据的后果不太清楚。“你们作为一个公民需要的东西与那个公司的利益之间存在着根本性的利益冲突,”Kaltheuner说。

  那么像Common Voice这样的计划如何引诱用户远离现有的 - 并且无可否认的方便 - 服务?毕竟,开源项目比互联网存在的时间更长,但除少数例外,它们无法与商业产品竞争。他们根本不提供类似的服务。

  对于Mozilla来说,答案是个性化。毕竟,虽然针对人口规模的数据集进行过培训的人工智能系统往往对普通人来说足够好,但在满足较小群体或未在其数据中表示的群体的需求时往往会失败。(通常情况下,数据偏向于白人男性,业界默认。)

  “为了让我们在数据共享方面获得成功,除了意识到有一天他们一直在泄露他们所有的个人数据之外,必须有一种动机[对于用户而言],”怀特说。“我们必须让他们的体验更好,因为他们已经参与。”在Common Voice的情况下,White想要尽可能多的重音数据来改善这些人的语音识别。“我们希望系统能够更好地为您工作,因为您的一些数据包含在内,”他说。

  提供个性化以换取数据是一个很好的主张,但对于那些打击数据垄断的人来说,它并不是一颗银弹。首先,大公司可以向用户提供他们自己的类似报价。(“Alexa不理解你?阅读这个10分钟的剧本,我们将改进其语音识别。”)或者他们可以花钱来填补他们自己的数据集中的空白。例如,谷歌让第三方公司向Redditors支付口音,以记录他们自己的语音样本。

  White承认Common Voice项目对许多这些问题没有答案,但Mozilla仍然致力于开放数据的核心原因。“这感觉就像一场真正的民主化活动,”他说。并且有很多组织都有这种精神。有机器学习社区Kaggle,它有大量用户贡献的数据集供AI科学家使用; Elon Musk资助的OpenAI,开放其所有工作; 和Healthcare.ai,发布免费使用的医疗算法。其中一些人在销售他们自己的商业产品(如自动驾驶汽车初创公司Comma.AI)时共同分享开源数据和研究。

  尽管我们每天与之互动的人工智能系统都建立在专有数据基础之上,但是整个世界的研究人员和机构都在发布有用的,如果是基本的开源替代方案。

  然而,要将这些项目提升到新的水平,开源数据的支持者可能会拥有更高的权力来接管科技巨头。深度学习公司Skymind的首席执行官Chris Nicholson表示,“我们可能需要第三方介入 - 非政府组织,政府,小型私营公司的联盟 - 并汇总他们的数据。”Nicholson建议共享医疗保健数据可以改善医疗成像技术和驾驶员数据可以使自动驾驶汽车在路上更加自然和直观。他说,分享这些类型的数据集“具有明显的公共利益。”

本文链接:http://thegoodfrog.com/yuyinshibie/126.html