-->
为五月的纽约流媒体保留座位吧. 现在注册!

视频:音频分析和视频机器学习

了解更多关于机器学习和人工智能的信息 流媒体的下一个事件.

观看小君海德的完整演示, VES103. 2019年用机器学习增强媒体,在… 流媒体会议视频门户.

阅读这段录音的完整文本:

小君海德: 在我看来,这是视频机器学习中比较成熟的领域之一. 据我所见,这些服务在语音转文本方面相当准确. 显然,它们并不完美. 但我觉得它们在这方面比物体检测更完美, 尤其是当我们在谈论野外的视频时.

例如,假设我是一个机器学习服务,可能是Video Indexer或Valossa. 我正在调整我的模型,它们可能会覆盖80%. 但是会有一些视频是他们没有预料到的, 它们还没有被调好. 所以我现在要说的是,语音到文本和翻译,或者语音到文本,到目前为止是相当不错的.

翻译是建立在这之上的. 除了能拿到笔录之外, 然后你就可以把这个抄本翻译成其他语言. 这是另一个很酷的例子. 这个世界上有很多声音不仅仅是言语. 所以我们有,你知道,鸟的声音. 我们有掌声,我们有音乐. 诸如此类. 某些服务实际上可以告诉你视频中发生了什么其他音频. 这很有用.

您在左侧看到的是Valossa及其JSON的样子. 我在视频里播放了一下,它检测到了掌声. 在动物群类别中,它检测到宠物的声音,可能是狗叫之类的.

然后是Azure Media Services的Video Indexer. 他们会给你一些很酷的演讲者统计数据. 假设你有一个培训系统,你在那里教授演讲会, 你希望他们能够有一个双向的对话. 你可以利用这些统计数据来知道谁在说话,谁不让别人说话.

在这种情况下,是我,因为我坐在这里和你们所有人说话,而你们都很安静. 但演讲者的统计数据相当有趣.

也有情绪分析. 情感分析是指分析视频中有多少快乐或悲伤. 或者说视频中某一点的正或负. Valossa在他们的UI中有一个非常酷的可视化工具,你可以在那里获得一些情感.

AMS视频索引器做正、负, 我想他们最近才开始把一些情绪也放进去.

Watson Video Enrichment做情感分析已经有一段时间了. 你可以在右下角看到的是快乐,悲伤,愤怒,恐惧和厌恶.

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

什么是机器学习即服务?

RealEyes Media首席技术官小君海德在2019年流媒体东部视频工程峰会上的演讲中讨论了MLaaS以及如何在此剪辑中利用它.

视频:如何让MLaaS为你工作

MLaaS对你有用吗? 这取决于你拥有的内容类型, 你是如何使用它的, 以及你需要的结果类型, 正如RealEyes的小君海德在2019年流媒体东部视频工程峰会上的演讲片段中所解释的那样.

视频:机器学习和人工智能的区别是什么?

微软的Andy Beach和IBM/Watson Media的Ethan Dreilinger在2018年流媒体西部会议上的小组讨论中分析了机器学习和人工智能之间的差异.

视频:选择视频AI平台时的关键考虑因素

RealEyes技术总监小君海德讨论了内部自我评估的重要性,以及在选择视频人工智能平台时要考虑的用例元素.

视频:开始使用视频AI平台的提示

RealEyes技术总监小君海德在2018年流媒体东部会议上的演讲中概述了选择人工智能平台的第一步.