暴力视音频分类检测相关论文
一 1993年
1993年的一篇Understanding andPreventing Violence指出暴力问题的严重性,作者以犀利的眼光和铮铮的事实数据表明美国社会充斥着暴力。
二 2005年
2、 重点侧重在识别每一帧中的肤色和血色部分(颜色检测使用的是Kohonen 自组织图(Self-Organizing Map))
3、 侧重在跟踪那些有可能被认定是暴力的区域(使用的连通分支(Connected Components))
4、 运动强度分析(使用的是像素变化率图(Pixel Change Ratio Map(PCRM)))
Recall |
Precision |
|
Gladiator Passion Of the Christ2 Passion Of the Christ3 Kill Bill What A Girl Wants |
100% 100% 0 100% 58.33% 0 |
100% 100% 0 50% 46.67% 0 |
三 2006年
使用的数据库:总长度20分钟的音频,50%用做训练50%用作测试。
四 2007年
3、色彩向量特征(Chroma VectorFeature)(广泛应用于音乐检测算法中)
3.2、中间均值(meanValue of the mid-term)
6.2、最大均值率(maximumto mean ratio)
特征(Feature) |
统计量(statistic) |
窗口大小Window(msecs) |
|
1 |
频谱图(Spectrogram) |
方差σ2 |
20 |
2 |
色彩(Chroma 1) |
均值 μ |
100 |
3 |
色彩(Chroma 2) |
中值median |
20(mid term:200) |
4 |
能量熵(Energy Entropy) |
最大值max |
20 |
5 |
MFCC |
方差σ2 |
20 |
6 |
MFCC |
最大值max |
20 |
7 |
过零率(ZCR) |
均值 μ |
20 |
8 |
频谱滚边 (Spectral Rolloff) |
中值median |
20 |
9 |
零螺距比 (zero pitch ratio) |
20 |
|
10 |
MFCC |
Max/μ |
20 |
11 |
频谱图(Spectrogram) |
最大值max |
20 |
12 |
MFCC |
中值median |
20 |
Music |
Speech |
Other |
Shots |
Fight |
Screams |
|
Recall |
63.3 |
85.1 |
69.0 |
78.7 |
69.1 |
74.1 |
Precision |
73.9 |
80.3 |
73.4 |
70.6 |
65.6 |
75.9 |
五 2008年
a
SCFL |
SVM |
||||
Precision |
Recall |
F1-measure |
Precision |
Recall |
F1-measure |
0.8076 |
0.9185 |
0.8553 |
0.6246 |
0.8253 |
0.7086 |
b
1、 频谱图特征(Spectrogram-basedfeature)
Stage 1 |
Stage 2 |
|
Precision Recall |
64.0% 77.1% |
64.5% 77.8% |
Det. Precision Rec. Precision |
78.8% 90.6% |
六 2009年
Movie NO. |
SVM |
His method |
||||
Precision |
Recall |
F1-measure |
Precision |
Recall |
F1-measure |
|
1 |
0.6246 |
0.8253 |
0.7111 |
0.8507 |
0.9585 |
0.9058 |
2 |
0.6833 |
0.8836 |
0.7706 |
0.8429 |
0.9321 |
0.8853 |
3 |
0.6027 |
0.8017 |
0.6881 |
0.8156 |
0.9105 |
0.8604 |
4 |
0.6155 |
0.8059 |
0.6979 |
0.8321 |
0.8975 |
0.8636 |
5 |
0.6723 |
0.8796 |
0.7621 |
0.8496 |
0.9026 |
0.8738 |
提取的特征有以下几个方面:
1、 运动强度和复杂性(MotionIntensity and Complexity)
2、 火焰和爆炸(Flameand Explosion)
3、 血色(Blood)
七 2010年
a
2010年的一篇Audio-Visual Fusion for Detecting Violent Scenes in Videos(Giannakopoulosetc.)论文(发表在SETN2010)。这篇文章是在06的基础上改进的一篇,文章提取了一个12维的音频特征。如下:
特征(Feature) |
统计量(statistic) |
窗口大小Window(msecs) |
|
1 |
频谱图(Spectrogram) |
方差σ2 |
20 |
2 |
色彩(Chroma 1) |
均值 μ |
100 |
3 |
色彩(Chroma 2) |
20(mid term:200) |
|
4 |
能量熵(Energy Entropy) |
最大值max |
20 |
5 |
MFCC |
方差σ2 |
20 |
6 |
MFCC |
最大值max |
20 |
7 |
过零率(ZCR) |
均值 μ |
20 |
8 |
频谱滚边 (Spectral Rolloff) |
中值median |
20 |
9 |
零螺距比 (zero pitch ratio) |
20 |
|
10 |
MFCC |
Max/μ |
20 |
11 |
频谱图(Spectrogram) |
最大值max |
20 |
12 |
MFCC |
中值median |
20 |
音频使用的分类器是“One-VS-All”(OVA)
视频特征:
1、 平均运动(AverageMotion (AM))
2、 Motion Orientation Variance(MOV)
视频使用的是带有权重的KNN分类器
最后将音频和视频结合在一起(multi-modal Fusion)
最后的实验结果:
Classification Performance Measures |
Recall Precision F1 |
Audio-based classification Visual-based classification Random classification Fused classification |
63.2% 45.2% 52 .7% 65.1% 40.7% 50 .1% 19 % 50% 28% 60.1% 47% 52.8% |
Detection Performance Measures |
Recall Precision F1 |
Audio-based detection Visual-based detection Fused detection |
82.9% 38.9% 53% 75.6% 34% 46.9% 83% 45.2% 58 .5% |
b
2010年一篇A Multimodal Approach to Violence Detection in Video Sharing Sites(Giannakopoulosetc.)论文(发表在ICPR2010)。该文章侧重于网络分享视频中的暴力视频的检测,他的方法是结合音频移动图片以及文本信息(来自于用户的评论)来检测暴力视频。提取了9维的特征来运算(其中7/9来自于音频特征)最后准确率达到82%。
七个音频特征:
1、 音乐(Music)
2、 说话(Speech)
3、 其他(Other1)
4、 其他(Other2)
5、 枪声(Gunshot)
6、 打斗声(Fights-beating)
7、 尖叫声(Screams)
文本特征:
一个500个关键字的特征提取出来
视觉特征:
镜头的变换
数据库来自于Youtube上的210个视频。其中115个被标记为暴力。使用的分类器是KNN,最后的分类检测结果为下表:
形式Modality |
F1-measure |
Accuracy |
文本(Text) Visual Audio |
75% 61% 78% |
75% 59% 79% |
融合后(All modalities) |
81% |
82% |
八 2011年
a
2011年的一篇Violence Detection in Movies(Liang-HuaChen etc.)论文(发表在CGIV 2011),这篇文章解释说暴力是一个很主观的概念,在这里作者给出了他自己的定义:a series of human actions accompanying with bleeding(一系列伴有血腥的人为动作),因此这篇文章就把侧重点放在了动作画面检测和血腥画面的检测。本文用SVM作为分类器来检测动作画面。
提取的特征有以下几个方面:
1、 平均运动强度(AverageMotion Intensity)
2、 摄影机运动比(CameraMotion Ratio)
3、 平均镜头长度(AverageShot Length)
4、 镜头切换频率(ShotCut Frequency)
以上四个组成4维的特征向量
关键点是找到血腥帧,他的方法是抽取一个镜头的中间帧作为关键帧
检测结果和2009的Lin他们的比较
Movie NO. |
Wang & Lin |
His Method |
||
Recall |
Precision |
Recall |
Precision |
|
1 |
82.35% |
82.35% |
82.35% |
100% |
2 |
70.00% |
87.50% |
80.00% |
100% |
3 |
88.89% |
80.00% |
94.44% |
100% |
4 |
75.00% |
81.82% |
83.33% |
100% |
b
2011年的一篇Multimodal and ontology-based fusion approaches of audio and visual processingfor violence detection in movies(Thanassis Perperis)论文(发表在ExpertSystems with Application)。本文通过各种分类来得到最终的检测结果。最后进行融合,为了融合利用了meta-classification technique机制以及基于本体论的方法(ontology-basedmethod).
音频类
1、 音乐(电影配乐)
2、 说话
3、 其他1(稳定的环境音)
4、 其他2(突变的环境音)
5、 枪声
6、 打斗声
7、 尖叫声
提取的音频特征
1、 频谱直方图(Spectrogram)
2、 色彩(Chroma)
3、 能量熵(EnergyEntropy)
4、 梅尔倒谱系数(MFCC)
5、 过零率(ZCR)
6、 频谱滚边(SpectralRolloff)
7、 零螺距比(ZeroPitch ratio)
视频特征:
1、AM Average overall motion calculatedusing motion vectors.
2、MOV Varianceof the motion vectors orientations.
3、OTD Average degree of overlap of thedetected people.
4、MLD Maximum luminance difference.
5、MLI Maximum luminance interval.
九 2012年
a
2012的一篇MULTIMODAL INFORMATION FUSION AND TEMPORAL INTEGRATION FOR
VIOLENCE DETECTION IN MOVIES(C ´edricPenet etc.)论文(发表在ICASSP2012)。该篇文章提供了一种贝叶斯网络框架模型来检测暴力镜头。
提取的音频和视频的特征有以下:
音频特征:
1、 能量熵(Energy)
2、 频谱质心(Centroid)
3、 频谱不对称性(Asymmetry)
4、 过零率(ZCR)
5、 单调性(Flatness)
视频特征:
1、 在HSV颜色空间上和血色相关的像素个数
2、 平均运动次数
3、 镜头闪烁次数(highluminance variation over three frames)
b
2012年的一篇Multi-modal Based Violent Movies Detection in Video Sharing Sites(Xingyu Zouetc.)论文(发表在IScIDE2012)。该篇文章利用SVM做分类器,从文本音频和视频三个角度来检测视频分享网站中的暴力视频。在这篇文章中阐述在当前研究中并没有给暴力做一个规范的定义,作者总结了当下的3中主流分类:
第一种是基于视频的(视频中的拳打脚踢)
第二种是基于音频的(提取音频特征或者是检测诸如枪声或汽车声等)
第三种是融合了音频和视频的(音视频特征)
提取的特征:
视频特征:
1、运动强度和复杂性(MotionIntensity and Complexity)
2、火焰和爆炸(Flame andExplosion)
3、血色(Blood)
4、镜头长度(Shot Length)
音频特征:
1、 音频能量(AudioEnergy)
2、 能量熵(EnergyEntropy)
使用的数据库来自于220个电影,总长为634分钟,平均时长为2.88分钟
暴力视音频分类检测相关论文相关推荐
- 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)
[radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...
- 缺陷检测相关论文阅读总结(记录自己读过的论文主要内容/Ideas)
缺陷检测相关论文阅读总结(记录自己读过的论文主要内容) Attention!!! 点击论文题目即可访问原文or下载原文PDF文件: 每篇文章的内容包含:内容总结.文章Ideas: 更多关于缺陷检测以及 ...
- ICCV2021对象检测相关论文
ICCV2021大会已于2021年10月10日到2021年10月17日召开,目前会议的论文都已经放出, AMiner对会议论文进行整理. 会议旨在针对计算机科学.人工智能.机器人科学与工程.大数据等前 ...
- 谣言检测相关论文阅读笔记:Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling
Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...
- 谣言检测相关论文阅读笔记:DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media
来源:AAAI2022 摘要:现有的谣言检测很少同时对消息传播结构和时序信息进行建模,与评论相关的知识信息的动态性也没有涉及.所以本文提出了一个新颖的双动态图卷积网络-DDGCN,该模型能够在一个统一 ...
- 弱监督目标检测相关论文阅读笔记
弱监督目标检测论文相关 1.传统目标检测 2014年之前->传统的目标检测器:VJ检测器->HOG检测器->DPM 2014年之后->基于深度学习的目标检测器: 双阶段:RCN ...
- 缺陷检测相关论文继续更新
转自自己的github : https://github.com/Eatzhy/surface-defect-detection 论文可以从github上下载,记得加星收藏,谢谢哦! surface- ...
- 异常检测相关论文记录
1.Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法 ...
- 谣言检测相关论文阅读笔记:PAKDD2020-SAFE: Similarity-Aware Multi-Modal Fake News Detection
目录 Abstract 1.Introduction 2.Related Work 3.Methodology 3.1 Multi-modal Feature Extraction 3.2 Modal ...
最新文章
- 在Ubuntu 14.04 64bit上下载更新x265源码
- HDU2050 折线分割平面
- python首行代码import *,from * import * 解析
- [LevelDB] 写批处理过程详解
- android 批量查找view,Android Recyclerview实现多选,单选,全选,反选,批量删除的功能
- C++输入一个整数后接着输入字符串
- 2013 ACM/ICPC Asia Regional Online —— Warmup1 1005 Balls Rearrangement
- 水晶报表设置图片高度与宽度
- 把数据对象转成字符串_Android Json数据的转换
- 解读全球热点,传递科研进展,这份AI内参要承包你的AI信息源
- php composer 无法下载,composer给laravel下载扩展包 无法下载的问题
- phpnow安装教程
- Python序列 数据类型 创建方式 Tuple元组 Str字符串 List列表 dict字典 Set集合 range,zip,map,enumerate
- 硬件:Nand Flash、Nor Flash
- 风应力旋度 matlab,热带气旋对南海上层海洋影响研究
- String字符串分割的3种方法 Java
- Cesium之天空盒对应方位
- bootstrap 元素
- 爱奇艺迎史上最大裁员潮:总监说撸就撸,有的部门直接裁一半......
- 找工作再也不愁之面试题全覆盖-Java基础篇
热门文章
- 【sublime】打开cpp文件中文乱码
- rails mysql 环境搭建_windows上Rails3环境的配置包括mysql数据库的配置说明
- 界面设计 UCS格调
- HCIA网络基础1-传输介质、中继器、HUB、网桥、交换机
- android 搜索壁纸_如何在线搜索酷壁纸
- java创建安卓虚拟环境_Android 环境搭建及模拟器使用
- 月增千万的数据,我用单体+单库扛下了所有~
- python如何打开excel表格_如何从python中用excel打开excel工作表?
- 如何在MySQL中执行SQL?
- CentOS 7.3 Minimal 安装宝塔