一 1993年

	特征（Feature）	统计量（statistic）	窗口大小Window（msecs）
1	频谱图（Spectrogram）	方差σ²	20
2	色彩（Chroma 1）	均值 μ	100
3	色彩（Chroma 2）	中值median	20（mid term：200）
4	能量熵（Energy Entropy）	最大值max	20
5	MFCC	方差σ²	20
6	MFCC	最大值max	20
7	过零率（ZCR）	均值 μ	20
8	频谱滚边 (Spectral Rolloff)	中值median	20
9	零螺距比（zero pitch ratio）		20
10	MFCC	Max/μ	20
11	频谱图（Spectrogram）	最大值max	20
12	MFCC	中值median	20

最后预测结果为：

	Music	Speech	Other	Shots	Fight	Screams
Recall	63.3	85.1	69.0	78.7	69.1	74.1
Precision	73.9	80.3	73.4	70.6	65.6	75.9

五 2008年

a

2008年的一篇Detecting Violent Scenes in Movies by Auditory and Visual Cues（Yu Gong etc.）论文（发表在PCM2008）。这篇文章使用了一个三级的方法来整合视频和音频层。本篇文章根据电影行业对于暴力的通用准则就是所谓暴力的表现是通过快速的视觉移动以及快速的声音转变。

所用的分类器为SVM和SCFL

实验结果是

SCFL			SVM
Precision	Recall	F1-measure	Precision	Recall	F1-measure
0.8076	0.9185	0.8553	0.6246	0.8253	0.7086

b

2008年的一篇GUNSHOT DETECTION IN AUDIO STREAMS FROM MOVIES BY MEANS OF DYNAMIC PROGRAMMINGAND BAYESIAN NETWORKS（Aggelos Pikrakis）论文（发表在ICASSP2008）。本文主要侧重在利用KNN分类器音频流中的枪声检测。

提取的音频特征：

1、频谱图特征（Spectrogram-basedfeature）

2、色彩特征（Chroma-basedfeature）

3、能量熵（EnergyEntropy）

4、梅尔倒谱系数（MFCC）

5、过零率（ZCR）

6、频谱滚边（SpectralRolloff）

7、高音（Pitch）

数据库5000个音频片段，来自于大约30部电影

本文使用两个参数来表明训练结果

第一个是正确分类的准确率和召回率

第二个是算法检测能力的准确率和召回率

Stage 1

Stage 2

Precision

Recall

64.0%

77.1%

64.5%

77.8%

Det. Precision

Rec. Precision

78.8%

90.6%

六 2009年

2009年的一篇Weakly-Supervised Violence Detection in Movies with Audio and VideoBased Co-training（Jian Lin &Wei-Qiang Wang）论文（发表在PCM2009），这篇文章提供一种检测在电影里暴力镜头的一种方法。从音频和视频两个方面来做训练最后做联合训练。和SVM作比较。

Movie NO.	SVM			His method
Movie NO.	Precision	Recall	F1-measure	Precision	Recall	F1-measure
1	0.6246	0.8253	0.7111	0.8507	0.9585	0.9058
2	0.6833	0.8836	0.7706	0.8429	0.9321	0.8853
3	0.6027	0.8017	0.6881	0.8156	0.9105	0.8604
4	0.6155	0.8059	0.6979	0.8321	0.8975	0.8636
5	0.6723	0.8796	0.7621	0.8496	0.9026	0.8738

提取的特征有以下几个方面：

1、运动强度和复杂性（MotionIntensity and Complexity）

2、火焰和爆炸（Flameand Explosion）

3、血色（Blood）

七 2010年

a

2010年的一篇Audio-Visual Fusion for Detecting Violent Scenes in Videos（Giannakopoulosetc.）论文（发表在SETN2010）。这篇文章是在06的基础上改进的一篇，文章提取了一个12维的音频特征。如下：

	特征（Feature）	统计量（statistic）	窗口大小Window（msecs）
1	频谱图（Spectrogram）	方差σ²	20
2	色彩（Chroma 1）	均值 μ	100
3	色彩（Chroma 2）	中值median	20（mid term：200）
4	能量熵（Energy Entropy）	最大值max	20
5	MFCC	方差σ²	20
6	MFCC	最大值max	20
7	过零率（ZCR）	均值 μ	20
8	频谱滚边 (Spectral Rolloff)	中值median	20
9	零螺距比（zero pitch ratio）		20
10	MFCC	Max/μ	20
11	频谱图（Spectrogram）	最大值max	20
12	MFCC	中值median	20

音频使用的分类器是“One-VS-All”（OVA）

视频特征：

1、平均运动（AverageMotion （AM））

2、 Motion Orientation Variance（MOV）

视频使用的是带有权重的KNN分类器

最后将音频和视频结合在一起（multi-modal Fusion）

最后的实验结果：

Classification Performance Measures

Recall Precision F1

Audio-based classification

Visual-based classification

Random classification

Fused classification

63.2% 45.2% 52 .7%

65.1% 40.7% 50 .1%

19 % 50% 28%

60.1% 47% 52.8%

Detection Performance Measures

Recall Precision F1

Audio-based detection

Visual-based detection

Fused detection

82.9% 38.9% 53%

75.6% 34% 46.9%

83% 45.2% 58 .5%

b

2010年一篇A Multimodal Approach to Violence Detection in Video Sharing Sites（Giannakopoulosetc.）论文（发表在ICPR2010）。该文章侧重于网络分享视频中的暴力视频的检测，他的方法是结合音频移动图片以及文本信息（来自于用户的评论）来检测暴力视频。提取了9维的特征来运算（其中7/9来自于音频特征）最后准确率达到82%。

七个音频特征：

1、音乐（Music）

2、说话（Speech）

3、其他（Other1）

4、其他（Other2）

5、枪声（Gunshot）

6、打斗声（Fights-beating）

7、尖叫声（Screams）

文本特征：

一个500个关键字的特征提取出来

视觉特征：

镜头的变换

数据库来自于Youtube上的210个视频。其中115个被标记为暴力。使用的分类器是KNN，最后的分类检测结果为下表：

形式Modality

F1-measure

Accuracy

文本（Text）

Visual

Audio

75%

61%

78%

75%

59%

79%

融合后（All modalities）

81%

82%

八 2011年

a

2011年的一篇Violence Detection in Movies（Liang-HuaChen etc.）论文（发表在CGIV 2011），这篇文章解释说暴力是一个很主观的概念，在这里作者给出了他自己的定义：a series of human actions accompanying with bleeding(一系列伴有血腥的人为动作)，因此这篇文章就把侧重点放在了动作画面检测和血腥画面的检测。本文用SVM作为分类器来检测动作画面。

提取的特征有以下几个方面：

1、平均运动强度（AverageMotion Intensity）

2、摄影机运动比（CameraMotion Ratio）

3、平均镜头长度（AverageShot Length）

4、镜头切换频率（ShotCut Frequency）

以上四个组成4维的特征向量

关键点是找到血腥帧，他的方法是抽取一个镜头的中间帧作为关键帧

检测结果和2009的Lin他们的比较

Movie NO.	Wang & Lin		His Method
Movie NO.	Recall	Precision	Recall	Precision
1	82.35%	82.35%	82.35%	100%
2	70.00%	87.50%	80.00%	100%
3	88.89%	80.00%	94.44%	100%
4	75.00%	81.82%	83.33%	100%

b

2011年的一篇Multimodal and ontology-based fusion approaches of audio and visual processingfor violence detection in movies（Thanassis Perperis）论文（发表在ExpertSystems with Application）。本文通过各种分类来得到最终的检测结果。最后进行融合，为了融合利用了meta-classification technique机制以及基于本体论的方法（ontology-basedmethod）.

音频类

1、音乐（电影配乐）

2、说话

3、其他1（稳定的环境音）

4、其他2（突变的环境音）

5、枪声

6、打斗声

7、尖叫声

提取的音频特征

1、频谱直方图（Spectrogram）

2、色彩（Chroma）

3、能量熵（EnergyEntropy）

4、梅尔倒谱系数(MFCC)

5、过零率（ZCR）

6、频谱滚边（SpectralRolloff）

7、零螺距比（ZeroPitch ratio）

视频特征：

1、AM Average overall motion calculatedusing motion vectors.

2、MOV Varianceof the motion vectors orientations.

3、OTD Average degree of overlap of thedetected people.

4、MLD Maximum luminance difference.

5、MLI Maximum luminance interval.

九 2012年

a

2012的一篇MULTIMODAL INFORMATION FUSION AND TEMPORAL INTEGRATION FOR

VIOLENCE DETECTION IN MOVIES（C ´edricPenet etc.）论文（发表在ICASSP2012）。该篇文章提供了一种贝叶斯网络框架模型来检测暴力镜头。

提取的音频和视频的特征有以下：

音频特征：

1、能量熵（Energy）

2、频谱质心（Centroid）

3、频谱不对称性（Asymmetry）

4、过零率（ZCR）

5、单调性（Flatness）

视频特征：

1、在HSV颜色空间上和血色相关的像素个数

2、平均运动次数

3、镜头闪烁次数（highluminance variation over three frames）

b

2012年的一篇Multi-modal Based Violent Movies Detection in Video Sharing Sites（Xingyu Zouetc.）论文（发表在IScIDE2012）。该篇文章利用SVM做分类器，从文本音频和视频三个角度来检测视频分享网站中的暴力视频。在这篇文章中阐述在当前研究中并没有给暴力做一个规范的定义，作者总结了当下的3中主流分类：

第一种是基于视频的（视频中的拳打脚踢）

第二种是基于音频的（提取音频特征或者是检测诸如枪声或汽车声等）

第三种是融合了音频和视频的（音视频特征）

提取的特征：

视频特征：

1、运动强度和复杂性（MotionIntensity and Complexity）

2、火焰和爆炸（Flame andExplosion）

3、血色（Blood）

4、镜头长度（Shot Length）

音频特征：

1、音频能量（AudioEnergy）

2、能量熵（EnergyEntropy）

使用的数据库来自于220个电影，总长为634分钟，平均时长为2.88分钟

暴力视音频分类检测相关论文相关推荐

【radar】毫米波雷达动态障碍物检测相关论文汇总（聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理）（4）
[radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...
缺陷检测相关论文阅读总结（记录自己读过的论文主要内容/Ideas）
缺陷检测相关论文阅读总结(记录自己读过的论文主要内容) Attention!!! 点击论文题目即可访问原文or下载原文PDF文件: 每篇文章的内容包含:内容总结.文章Ideas: 更多关于缺陷检测以及 ...
ICCV2021对象检测相关论文
ICCV2021大会已于2021年10月10日到2021年10月17日召开,目前会议的论文都已经放出, AMiner对会议论文进行整理. 会议旨在针对计算机科学.人工智能.机器人科学与工程.大数据等前 ...
谣言检测相关论文阅读笔记：Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling
Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...
谣言检测相关论文阅读笔记：DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media
来源:AAAI2022 摘要:现有的谣言检测很少同时对消息传播结构和时序信息进行建模,与评论相关的知识信息的动态性也没有涉及.所以本文提出了一个新颖的双动态图卷积网络-DDGCN,该模型能够在一个统一 ...
弱监督目标检测相关论文阅读笔记
弱监督目标检测论文相关 1.传统目标检测 2014年之前->传统的目标检测器:VJ检测器->HOG检测器->DPM 2014年之后->基于深度学习的目标检测器: 双阶段:RCN ...
缺陷检测相关论文继续更新
转自自己的github : https://github.com/Eatzhy/surface-defect-detection 论文可以从github上下载,记得加星收藏,谢谢哦! surface- ...
异常检测相关论文记录
1.Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法 ...
谣言检测相关论文阅读笔记：PAKDD2020-SAFE: Similarity-Aware Multi-Modal Fake News Detection
目录 Abstract 1.Introduction 2.Related Work 3.Methodology 3.1 Multi-modal Feature Extraction 3.2 Modal ...

暴力视音频分类检测相关论文

一 1993年

二 2005年

三 2006年

四 2007年

五 2008年

a

b

六 2009年

七 2010年

a

b

八 2011年

a

b

九 2012年

a

b

暴力视音频分类检测相关论文相关推荐

最新文章

热门文章