一   1993年

1993年的一篇Understanding andPreventing Violence指出暴力问题的严重性,作者以犀利的眼光和铮铮的事实数据表明美国社会充斥着暴力。

二   2005年

2005年的一篇DOVE: Detection of Movie Violence using Motion Intensity Analysis onSkin and Blood(C Clarin etc.)论文(发表在PCSC2005)。这篇文章给了暴力自己的定义—包含有极度拳打脚踢以及针刺等等类似行为的视频序列称之为暴力(movie sequences involving actions producing blood such as extreme punching,kicking, stabbing, and similar actions.)。这篇文章开发出了DOVE这个系统,它能够检测出伴有血腥和动作的暴力视频帧。

开发DOVE这个系统的时候经历了四个模型:

1、 场景变换检测

2、 重点侧重在识别每一帧中的肤色和血色部分(颜色检测使用的是Kohonen 自组织图(Self-Organizing Map))

3、 侧重在跟踪那些有可能被认定是暴力的区域(使用的连通分支(Connected Components))

4、 运动强度分析(使用的是像素变化率图(Pixel Change Ratio Map(PCRM)))

使用的是PCRM作为分类器

实验结果

Recall

Precision

Gladiator

Passion Of the Christ1

Passion Of the Christ2

Passion Of the Christ3

Kill Bill

What A Girl Wants

100%

100%

0

100%

58.33%

0

100%

100%

0

50%

46.67%

0

三   2006年

2006年的一篇Violence Content Classification Using Audio Features(Giannakopoulos)论文(发表在SETN2006),这篇论文通过提取音频特征利用SVM分类器来达到音频检测的目的。

提取的音频特征主要有:

1、 时域特征:

1.1、      能量熵(Energy Entropy)

1.2、      信号振幅(Signal Amplitude)

1.3、      短时能量(Short Time Energy)

1.4、      过零率(Zero Crossing Rate)

2、 频域特征

2.1、      频谱流量(Spectrum Flux)

2.2、             频谱滚边(Spectral Rolloff)

使用的数据库:总长度20分钟的音频,50%用做训练50%用作测试。

音频的属性:采样率为16KHz,采样分辨率为16bits

四   2007年

2007年的一篇A Multi-Class Audio Classification Method With Respect To ViolentContent In Movies Using Bayesian Networks(Giannakopoulos)论文(发表在MMSP2007)。该篇文章提取了12维的音频特征利用贝叶斯网络以及OVA(One-versus-All)的方法。数据库来自于30部电影。本文给了暴力一个定义:人与人之间的故意的伤害,企图或者实际导致了人生伤害(behavior by persons against persons that intentionally threatens,attempts, or actually inflicts physical harm)。这篇文章侧重于从音频特征来检测暴力的存在。提取了12D的音频特征利用贝叶斯网络(BN)分类器做分类预测。

音频特征:

1、 过零率(ZeroCrossing Rate)

2、 频谱图(SpectrogramFeature)

2.1、标准偏差

2.2、最大值

3、色彩向量特征(Chroma VectorFeature)(广泛应用于音乐检测算法中)

3.1、均值(mean Value)

3.2、中间均值(meanValue of the mid-term)

4、能量熵(Energy Entropy)

5、频谱滚边(SpectralRolloff)

6、MFCC

6.1、最大值(maximumvalue)

6.2、最大均值率(maximumto mean ratio)

6.3、标准偏差(standarddeviation)

6.4、中值(medianvalue)

7、高音(pitch)

特征(Feature)

统计量(statistic)

窗口大小Window(msecs)

1

频谱图(Spectrogram)

方差σ2

20

2

色彩(Chroma 1)

均值 μ

100

3

色彩(Chroma 2)

中值median

20(mid term:200)

4

能量熵(Energy Entropy)

最大值max

20

5

MFCC

方差σ2

20

6

MFCC

最大值max

20

7

过零率(ZCR)

均值 μ

20

8

频谱滚边

(Spectral Rolloff)

中值median

20

9

零螺距比

(zero pitch ratio)

20

10

MFCC

Max/μ

20

11

频谱图(Spectrogram)

最大值max

20

12

MFCC

中值median

20

最后预测结果为:

Music

Speech

Other

Shots

Fight

Screams

Recall

63.3

85.1

69.0

78.7

69.1

74.1

Precision

73.9

80.3

73.4

70.6

65.6

75.9

五   2008年

a

2008年的一篇Detecting Violent Scenes in Movies by Auditory and Visual Cues(Yu Gong etc.)论文(发表在PCM2008)。这篇文章使用了一个三级的方法来整合视频和音频层。本篇文章根据电影行业对于暴力的通用准则就是所谓暴力的表现是通过快速的视觉移动以及快速的声音转变。

所用的分类器为SVMSCFL

实验结果是

SCFL

SVM

Precision

Recall

F1-measure

Precision

Recall

F1-measure

0.8076

0.9185

0.8553

0.6246

0.8253

0.7086

b

2008年的一篇GUNSHOT DETECTION IN AUDIO STREAMS FROM MOVIES BY MEANS OF DYNAMIC PROGRAMMINGAND BAYESIAN NETWORKS(Aggelos Pikrakis)论文(发表在ICASSP2008)。本文主要侧重在利用KNN分类器音频流中的枪声检测。

提取的音频特征:

1、 频谱图特征(Spectrogram-basedfeature)

2、 色彩特征(Chroma-basedfeature)

3、 能量熵(EnergyEntropy)

4、 梅尔倒谱系数(MFCC)

5、 过零率(ZCR)

6、 频谱滚边(SpectralRolloff)

7、 高音(Pitch)

数据库5000个音频片段,来自于大约30部电影

本文使用两个参数来表明训练结果

第一个是正确分类的准确率和召回率

第二个是算法检测能力的准确率和召回率

Stage 1

Stage 2

Precision

Recall

64.0%

77.1%

64.5%

77.8%

Det. Precision

Rec. Precision

78.8%

90.6%

六   2009年

2009年的一篇Weakly-Supervised Violence Detection in Movies with Audio and VideoBased Co-training(Jian Lin &Wei-Qiang Wang)论文(发表在PCM2009),这篇文章提供一种检测在电影里暴力镜头的一种方法。从音频和视频两个方面来做训练最后做联合训练。和SVM作比较。

Movie NO.

SVM

His method

Precision

Recall

F1-measure

Precision

Recall

F1-measure

1

0.6246

0.8253

0.7111

0.8507

0.9585

0.9058

2

0.6833

0.8836

0.7706

0.8429

0.9321

0.8853

3

0.6027

0.8017

0.6881

0.8156

0.9105

0.8604

4

0.6155

0.8059

0.6979

0.8321

0.8975

0.8636

5

0.6723

0.8796

0.7621

0.8496

0.9026

0.8738

提取的特征有以下几个方面:

1、 运动强度和复杂性(MotionIntensity and Complexity)

2、 火焰和爆炸(Flameand Explosion)

3、 血色(Blood)

七   2010年

a

2010年的一篇Audio-Visual Fusion for Detecting Violent Scenes in Videos(Giannakopoulosetc.)论文(发表在SETN2010)。这篇文章是在06的基础上改进的一篇,文章提取了一个12维的音频特征。如下:

特征(Feature)

统计量(statistic)

窗口大小Window(msecs)

1

频谱图(Spectrogram)

方差σ2

20

2

色彩(Chroma 1)

均值 μ

100

3

色彩(Chroma 2)

中值median

20(mid term:200)

4

能量熵(Energy Entropy)

最大值max

20

5

MFCC

方差σ2

20

6

MFCC

最大值max

20

7

过零率(ZCR)

均值 μ

20

8

频谱滚边

(Spectral Rolloff)

中值median

20

9

零螺距比

(zero pitch ratio)

20

10

MFCC

Max/μ

20

11

频谱图(Spectrogram)

最大值max

20

12

MFCC

中值median

20

音频使用的分类器是“One-VS-All”(OVA)

视频特征:

1、 平均运动(AverageMotion (AM))

2、 Motion Orientation Variance(MOV)

视频使用的是带有权重的KNN分类器

最后将音频和视频结合在一起(multi-modal Fusion)

最后的实验结果:

Classification Performance Measures

Recall        Precision            F1

Audio-based classification

Visual-based classification

Random classification

Fused classification

63.2%         45.2%            52 .7%

65.1%         40.7%            50 .1%

19 %            50%              28%

60.1%           47%            52.8%

Detection Performance Measures

Recall        Precision            F1

Audio-based detection

Visual-based detection

Fused detection

82.9%         38.9%             53%

75.6%          34%            46.9%

83%          45.2%            58 .5%

b

2010年一篇A Multimodal Approach to Violence Detection in Video Sharing Sites(Giannakopoulosetc.)论文(发表在ICPR2010)。该文章侧重于网络分享视频中的暴力视频的检测,他的方法是结合音频移动图片以及文本信息(来自于用户的评论)来检测暴力视频。提取了9维的特征来运算(其中7/9来自于音频特征)最后准确率达到82%。

七个音频特征:

1、 音乐(Music)

2、 说话(Speech)

3、 其他(Other1)

4、 其他(Other2)

5、 枪声(Gunshot)

6、 打斗声(Fights-beating)

7、 尖叫声(Screams)

文本特征:

一个500个关键字的特征提取出来

视觉特征:

镜头的变换

数据库来自于Youtube上的210个视频。其中115个被标记为暴力。使用的分类器是KNN,最后的分类检测结果为下表:

形式Modality

F1-measure

Accuracy

文本(Text)

Visual

Audio

75%

61%

78%

75%

59%

79%

融合后(All modalities)

81%

82%

八   2011年

a

2011年的一篇Violence Detection in Movies(Liang-HuaChen etc.)论文(发表在CGIV 2011),这篇文章解释说暴力是一个很主观的概念,在这里作者给出了他自己的定义:a series of human actions accompanying with bleeding(一系列伴有血腥的人为动作),因此这篇文章就把侧重点放在了动作画面检测和血腥画面的检测。本文用SVM作为分类器来检测动作画面。

提取的特征有以下几个方面:

1、 平均运动强度(AverageMotion Intensity)

2、 摄影机运动比(CameraMotion Ratio)

3、 平均镜头长度(AverageShot Length)

4、 镜头切换频率(ShotCut Frequency)

以上四个组成4维的特征向量

关键点是找到血腥帧,他的方法是抽取一个镜头的中间帧作为关键帧

检测结果和2009的Lin他们的比较

Movie NO.

Wang & Lin

His Method

Recall

Precision

Recall

Precision

1

82.35%

82.35%

82.35%

100%

2

70.00%

87.50%

80.00%

100%

3

88.89%

80.00%

94.44%

100%

4

75.00%

81.82%

83.33%

100%

b

2011年的一篇Multimodal and ontology-based fusion approaches of audio and visual processingfor violence detection in movies(Thanassis Perperis)论文(发表在ExpertSystems with Application)。本文通过各种分类来得到最终的检测结果。最后进行融合,为了融合利用了meta-classification technique机制以及基于本体论的方法(ontology-basedmethod).

音频类

1、 音乐(电影配乐)

2、 说话

3、 其他1(稳定的环境音)

4、 其他2(突变的环境音)

5、 枪声

6、 打斗声

7、 尖叫声

提取的音频特征

1、 频谱直方图(Spectrogram)

2、 色彩(Chroma)

3、 能量熵(EnergyEntropy)

4、 梅尔倒谱系数(MFCC)

5、 过零率(ZCR)

6、 频谱滚边(SpectralRolloff)

7、 零螺距比(ZeroPitch ratio)

视频特征:

1、AM            Average overall motion calculatedusing motion vectors.

2、MOV         Varianceof the motion vectors orientations.

3、OTD          Average degree of overlap of thedetected people.

4、MLD                   Maximum luminance difference.

5、MLI           Maximum luminance interval.

九   2012年

a

2012的一篇MULTIMODAL INFORMATION FUSION AND TEMPORAL INTEGRATION FOR

VIOLENCE DETECTION IN MOVIES(C ´edricPenet etc.)论文(发表在ICASSP2012)。该篇文章提供了一种贝叶斯网络框架模型来检测暴力镜头。

提取的音频和视频的特征有以下:

音频特征:

1、 能量熵(Energy)

2、 频谱质心(Centroid)

3、 频谱不对称性(Asymmetry)

4、 过零率(ZCR)

5、 单调性(Flatness)

视频特征:

1、 在HSV颜色空间上和血色相关的像素个数

2、 平均运动次数

3、 镜头闪烁次数(highluminance variation over three frames)

b

2012年的一篇Multi-modal Based Violent Movies Detection in Video Sharing Sites(Xingyu Zouetc.)论文(发表在IScIDE2012)。该篇文章利用SVM做分类器,从文本音频和视频三个角度来检测视频分享网站中的暴力视频。在这篇文章中阐述在当前研究中并没有给暴力做一个规范的定义,作者总结了当下的3中主流分类:

第一种是基于视频的(视频中的拳打脚踢)

第二种是基于音频的(提取音频特征或者是检测诸如枪声或汽车声等)

第三种是融合了音频和视频的(音视频特征)

提取的特征:

视频特征:

1、运动强度和复杂性(MotionIntensity and Complexity)

2、火焰和爆炸(Flame andExplosion)

3、血色(Blood)

4、镜头长度(Shot Length)

音频特征:

1、 音频能量(AudioEnergy)

2、 能量熵(EnergyEntropy)

使用的数据库来自于220个电影,总长为634分钟,平均时长为2.88分钟

暴力视音频分类检测相关论文相关推荐

  1. 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)

    [radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...

  2. 缺陷检测相关论文阅读总结(记录自己读过的论文主要内容/Ideas)

    缺陷检测相关论文阅读总结(记录自己读过的论文主要内容) Attention!!! 点击论文题目即可访问原文or下载原文PDF文件: 每篇文章的内容包含:内容总结.文章Ideas: 更多关于缺陷检测以及 ...

  3. ICCV2021对象检测相关论文

    ICCV2021大会已于2021年10月10日到2021年10月17日召开,目前会议的论文都已经放出, AMiner对会议论文进行整理. 会议旨在针对计算机科学.人工智能.机器人科学与工程.大数据等前 ...

  4. 谣言检测相关论文阅读笔记:Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling

    Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...

  5. 谣言检测相关论文阅读笔记:DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media

    来源:AAAI2022 摘要:现有的谣言检测很少同时对消息传播结构和时序信息进行建模,与评论相关的知识信息的动态性也没有涉及.所以本文提出了一个新颖的双动态图卷积网络-DDGCN,该模型能够在一个统一 ...

  6. 弱监督目标检测相关论文阅读笔记

    弱监督目标检测论文相关 1.传统目标检测 2014年之前->传统的目标检测器:VJ检测器->HOG检测器->DPM 2014年之后->基于深度学习的目标检测器: 双阶段:RCN ...

  7. 缺陷检测相关论文继续更新

    转自自己的github : https://github.com/Eatzhy/surface-defect-detection 论文可以从github上下载,记得加星收藏,谢谢哦! surface- ...

  8. 异常检测相关论文记录

    1.Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法 ...

  9. 谣言检测相关论文阅读笔记:PAKDD2020-SAFE: Similarity-Aware Multi-Modal Fake News Detection

    目录 Abstract 1.Introduction 2.Related Work 3.Methodology 3.1 Multi-modal Feature Extraction 3.2 Modal ...

最新文章

  1. 在Ubuntu 14.04 64bit上下载更新x265源码
  2. HDU2050 折线分割平面
  3. python首行代码import *,from * import * 解析
  4. [LevelDB] 写批处理过程详解
  5. android 批量查找view,Android Recyclerview实现多选,单选,全选,反选,批量删除的功能
  6. C++输入一个整数后接着输入字符串
  7. 2013 ACM/ICPC Asia Regional Online —— Warmup1 1005 Balls Rearrangement
  8. 水晶报表设置图片高度与宽度
  9. 把数据对象转成字符串_Android Json数据的转换
  10. 解读全球热点,传递科研进展,这份AI内参要承包你的AI信息源
  11. php composer 无法下载,composer给laravel下载扩展包 无法下载的问题
  12. phpnow安装教程
  13. Python序列 数据类型 创建方式 Tuple元组 Str字符串 List列表 dict字典 Set集合 range,zip,map,enumerate
  14. 硬件:Nand Flash、Nor Flash
  15. 风应力旋度 matlab,热带气旋对南海上层海洋影响研究
  16. String字符串分割的3种方法 Java
  17. Cesium之天空盒对应方位
  18. bootstrap 元素
  19. 爱奇艺迎史上最大裁员潮:总监说撸就撸,有的部门直接裁一半......
  20. 找工作再也不愁之面试题全覆盖-Java基础篇

热门文章

  1. 【sublime】打开cpp文件中文乱码
  2. rails mysql 环境搭建_windows上Rails3环境的配置包括mysql数据库的配置说明
  3. 界面设计 UCS格调
  4. HCIA网络基础1-传输介质、中继器、HUB、网桥、交换机
  5. android 搜索壁纸_如何在线搜索酷壁纸
  6. java创建安卓虚拟环境_Android 环境搭建及模拟器使用
  7. 月增千万的数据,我用单体+单库扛下了所有~
  8. python如何打开excel表格_如何从python中用excel打开excel工作表?
  9. 如何在MySQL中执行SQL?
  10. CentOS 7.3 Minimal 安装宝塔