1号风向 | 提取「最佳帧」哪家强?看算法如何玩转电视剧内容生产
2019/11/1 23:48:36 传媒1号

今天是「1号风向」第197篇文章
1号按
从AlphaGo击败李世石,到互联网平台个性化推荐「读懂你的内心」,再到讯飞听见实时语音转文字,人工智能将众多的「不可能」变成了「可能」。
前两年,新闻领域的「算法推荐+人工审核」成为社会讨论的焦点。今年,算法不仅是信息推送的专利,更拓展了其在电视剧领域的应用。过去,流媒体视频平台上电视剧集最佳缩略图的选择工作是纯人工完成,该工作不仅对编辑人员有极高的鉴赏要求,也费时费力,可以说是一项看似简单实则艰巨的工作。

图片来源:Globo
鉴于手动选择最佳缩略图背后的问题,Globo旗下的Globoplay视频平台推出了一种新算法,该算法能自动生成并提取剧集中的「最佳帧」,而经过算法生成的缩略图与人工选择的相差无几,证实了该技术的现实适用性。这一技术的引入极大地解放了生产力,但其中与个体主观性的冲突也同样值得深思熟虑。
关键词:Globoplay;AI;最佳帧;缩略图;主观性
原文来源|IBC365
原文作者|Edmundo Hoyle, álvaro Antelo, Igor Coutinho
原文发表时间|2019年10月17日
译者|冯嘉欣
Globoplay是由Globo开发的OTT平台,可以直接通过互联网向用户提供内容服务,包括流媒体直播内容、电视连续剧、纪录片、新闻和娱乐节目。在Globoplay中发布的每个视频均附有一个缩略图和简介。通常是截取具有典型代表性的画面形成的剧集缩略图,可以有效地吸引用户关注。

图 / Globoplay应用界面。从左到右依次为主页、分类、电视剧列表、单集缩略图与简介。图片来源:IBC365
与其他数字视频平台一样,为了吸引用户并提高用户粘性,Globoplay需要仔细斟酌如何进行产品呈现。研究表明,人们在浏览网络视频时会看大量的缩略图。因此缩略图对网络视频的呈现效果而言十分重要。作为最具代表性的视频快照,缩略图应该捕获每个视频的精髓,给观众提供准确的第一印象,达到增加视频的吸引力的最佳效果,从而增加广告收入。
为此,Globo公司引入一种新算法,用以取代人工,将通过算法自动选择呈现在Globoplay上的剧集缩略图。这种新算法将通过图像特征与文本元数据的综合计算,选出「最佳帧」。它旨在与手动选择达到同样的质量水平。
耗时耗力:手动缩略图选择的问题
在Globo,专业人士按照严格规则和标准手动选择缩略图,找到最能代表整个视频的一帧。该过程通常很耗时耗力。Globo定期每天同一时间上线五部新剧集,因此缩略图挑选过程的自动化由于其潜在的更高的生产效率,成为一种理想目标。
Globo制作的电视剧只有在电视平台上线之后才能在Globoplay上线。为了保险起见,在视频自动发布的过程中,每5秒内容都将生成一张固定帧,进而通过手动编辑形成每一部分内容的缩略图。这项工作不仅需要时间,而且也具有时间敏感性,因为编辑需要让所有的内容都以准确的缩略图呈现出来 。
选择「最佳帧」的过程需要遵循既定规则。缩略图通常需要满足以下要求:必须包含本集中发生的相关事件;必须保证图像清晰;不得包含裸露内容;不得包含武器镜头;必须始终以人为中心。除了以上这些规则,还需要考量其他参数,例如图中人物不得做鬼脸,同时也应避免全幅拍摄和动作拍摄。
自动化过程:AI缩略图选择
完整的工作流程可以分为三个步骤。首先,使用文本元数据提取较小的相关视频片段。之后,根据审美标准在每一部分中选出两帧作为候选。最后,根据编辑列出的规则限制对之前挑选出的样本库进行筛选过滤,确定最终结果。
步骤一:查找相关的视频片段
剧集的每个视频都有自己的文本元数据,通常是包含该剧集中的相关事件的内容摘要。AI自动选择缩略图的第一步是查找视频中与这些事件最匹配的片段,这需要用到文本搜索引擎技术。
通过使用「词袋」或「字母袋」范式,所有文本都有其专用术语代表,搜索引擎能得到文件中每个术语的相关程度量级。这种测量可以通过各种方式进行,如二进制单词,单词计数或称为TF-IDF的索引。在TF-IDF索引下,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,从而达到词频和专用性之间的平衡。通过由其相关性的术语代表文件文本,为不同文件之间的比较提供了可能。这种方法已经用于Globoplay中的视频推荐。
步骤一开始,文本元数据被拆分为句子。每个句子与所有隐藏字幕相对照。这类似于使用搜索引擎查找隐藏字幕文件(行)中的文本句子。通过对照,形成文本句子和隐藏字幕之间的相似度等级。
换句话说,通过使用TF-IDF索引,能对隐藏字幕文件与文本元数据之间的相似度进行排序。最相似的一组决定了相关视频片段的时间码输入与输出。此过程最终得到相关视频片段的数据库,其中每个片段对应内容文本元数据中的一个句子。

图 / 使用文本寻找视频中的相关事件
图片来源:IBC365
步骤二:选择片段中的「最佳帧」
在视频片段中搜索最佳帧时,首先每十帧采样一次,得到一个样本库。
掌握了自动生成帧组成的样本库后,下一步就是对样本库中所有帧进行分类与审美性排序。为此,将运用监督式学习方法,并与由电视剧前几集得到的数据集相结合。实际上手动选择的缩略图被贴上正面标签。部分图像指标被用作此种分类系统,例如颜色分类特征、文本、质量特征等,这些指标同样也被用于之前的缩略图分类中。
在对分类系统编码结束后,将根据这些帧与被贴上正面标签的缩略图之间的贴近性进行排序。对于每个视频片段,通过此过程都将选取排名前二的两帧列入候选。
步骤三:用深度学习施加限制
上一步执行完成后,确定了「最佳帧」候选库,该候选库已经经过了事件相关性与审美性的检验。那么接下来,需要保证所有图像均符合专业编辑给出的标准。
为了检测图像中的人、武器和裸露镜头, 我们使用了Amazon Rekognition。该服务可以很好地嵌入到系统当中,提供众多图像分析功能。借助Rekognition,系统可以检测到图像中的特定物体(例如武器),场景,以及人像面孔。因此,它可以检测出候选帧当中或直白或隐晦的成人内容,并将它们排除。

图 / Amazon Rekognition系统的完整工作流程
图片来源:IBC365
结果与分析
在正式发布该算法之前,我们选取了巴西Rede Globo广播公司的一部电视剧《Malha?o》中的几集进行了测试,用以验证手动选择的缩略图是否能被算法选择。结果表明,在绝大多数情况下,同一个视频片段中算法生成的缩略图与手动选择的相一致,这预示着AI生成电视剧缩略图的应用前景可观。

图 / 手动选择缩略图与自动生成缩略图对比示例
图片来源:IBC365
该系统于2019年1月23日开始应用到Globoplay。接下来的结果和分析都是基于电视剧《Malha?o》截止到5月3日自动生成的最佳缩略图,共计有73集的缩略图是由系统生成。92%(67集)的情况下,专业编辑们认同至少有一张缩略图是与剧情相关的。在大约三分之一(21集)的情况下,编辑人员认同第一张算法推荐的图像是该集的最佳选择。只有8%(6集)的候选库被完全否决。

图 / 绿色表示成功推荐,蓝色表示其他部分
图片来源:IBC365
专业编辑们提出需要在算法选择的基础上进行最终的人工筛选,以下是几点原因:
1.首选人物朝前的图像;2.人物的面部表情不理想;3.人物目光朝下或者其他不理想的方向;4.尽管自动生成的缩略图不赖,但编辑更喜欢其他事件;5.人物消隐在背景中难以识别。
这些要求人工干预的原因大多具有高度主观性。虽然可以进一步完善,但主观性是很难编入算法中的。尽管如此,事实上绝大多数算法推荐成功捕捉到了视频中的相关事件以及这些事件的最佳帧。

图 / 编辑人员用其他候选替代AI首选缩略图的示例
图片来源:IBC365
未来展望
据悉,此项目有几个后续行动——
首先,该系统将覆盖所有环球剧集。其次,需要进行一些A / B测试以改善结果指标。该测试最终可以验证被淘汰的缩略图候选项是否会对视频消费产生负面影响。最后,编辑人员介入中的主观性仍需斟酌,以增加系统精准性,进一步提高生产效率。

1号结语
本文提出了一种自动化方法来从电视剧中提取最具代表性的画面或「最佳帧」。这种方法主要采用文本元数据进行视频相关事件的搜寻,并依据审美性原则与用户定义准则提取「最佳缩略图」。
利用算法自动生成最佳缩略图的方式,是视频流媒体平台的一大进步与突破,它大大解放了生产力,为编辑人员集中于更为重要的内容制作任务提供了可能,也更有利于整个行业集中人才资源,重点关注行业发展前沿问题,从而推动整个行业变革。
同时我们也应看到,无论是算法支持下的个性化新闻推荐、互联网内容审核,还是电视剧「最佳缩略图」的提取,当下的算法仍然无法达到容纳个体主观性的高度。也许不久的将来,人工智能将有可能克服现有的问题,但目前,我们在享受技术福利的同时,仍然需要考虑技术带来的审美与伦理等社会问题。

http://weixin.100md.com
返回 传媒1号 返回首页 返回百拇医药