第一问答网

 找回密码
 立即注册
查看: 101|回复: 0

一些文章:情感计算与理解研究发展概述

[复制链接]

4

主题

5

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2022-11-30 09:51:40 | 显示全部楼层 |阅读模式
〇、前言

这篇是情感计算相关的综述,选自《中国图象图形学报》第27卷第6期(总第314期)。该文的收稿日期是2021年1月21日,修回日期是2022年4月6日,预印本日期是2022年4月13日, 算是相当新的文章了。
本文主要针对多模态情感识别孤独症情感识别情感图像内容分析面部表情识别面部微表情分析与识别这五个领域的研究背景及意义国内外研究现状及比较发展趋势及展望这三种角度入手,做了相当细致的分析。
本文是国家自然科学基金项目。
一、第一遍阅读:标题、摘要、结论

本文的标题为《情感计算与理解研究发展概述》,很明显,这是一篇关于情感计算的综述。
再看作者,本文作者包括一位中科院心理研究所的副研究员、一位美国哥伦比亚大学的博士后研究员和分别来自哈工大、北邮和南开大学的五位教授。本文通信作者为哈尔滨工业大学教授姚鸿勋老师,其主要研究方向为计算机视觉智能。
关于情感计算,百度百科给出这样的解释。
情感计算的概念是在1997年由MIT媒体实验室Picard教授提出,她指出情感计算是与情感相关,来源于情感或能够对情感施加影响的计算。中国科学院自动化研究所的胡包刚等人也通过自己的研究,提出了对情感计算的定义:“情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能”。
本文摘要部分对情感计算有这样的看法(摘自摘要中不相邻的两个句子)。
情感在感知、决策、逻辑推理和社交等一系列智能活动中起到核心作用,是实现人机交互和机器智能的重要元素。
情感计算与理解旨在赋予计算机系统识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高、更全面的智能。根据输入信号的不同,情感计算与理解包含不同的研究方向。
由此可见,情感计算根据输入信号的不同,而发展出不同的研究方向,但这些发展方向的目标都是一致的,那就是试图让计算机感受到人的情感,从而产生更高的智能、实现更多的应用场景。
继续往下读摘要。
作者表示,本文本文主要针对多模态情感识别孤独症情感识别情感图像内容分析面部表情识别等不同研究方向入手,分析各领域在过去几十年内的研究成果,同时在包括情感数据标注特征提取学习算法部分代表性方法的性能比较和分析以及代表性研究团队(本句摘自原文)等角度,比较国内外研究现状,分析国内研究的优势与不足,最后对情感计算的现存问题、发展趋势提出看法,最后提出自己的期许。
本文没有结论部分。
二、第二遍阅读:全文通读、关注图表、整体把控

0、引言

引言部分简单介绍了“情感”一词的来源以及情感计算的提出,后一点我在第一遍阅读的部分有提到,这里不细说了。
1、研究背景、问题定义和研究意义

1.1 多模态情感识别
本文给出了多模态情感识别的定义。
多模态情感识别通过提取图像、视频、音频、文本和生理信号等多种模态数据中的情感信号,完成情感的分类、回归、检测和检索任务。
多模态任务,顾名思义,需要使用多个不同的模态来完成指定任务。简单来说,可以理解为从多个角度来解决一个问题。譬如说,同时通过音频数据和视频数据,听觉角度和视觉角度结合着来分析同一个问题,这样子的。



多模态情感识别发展历程

这种情感计算方式的应用也很多,包括但不限于舆情分析、商业智能、健康导航等方面。以下是作者在这三方面各举出的一个例子。

  • 分析用户对新冠疫情等事件的情感倾向;
  • 可分析用户对于商品的满意度,设计引起用户积极情感的广告;
  • 分析驾车、上课等状态下的情感程度,针对性地给出警示,提高工作效率。
1.2 孤独症情感识别
孤独症,全称孤独症谱系障碍(Autism Spectrum Disorder,ASD),即我们平时常说的自闭症。这是儿童时期最常见的神经发育障碍疾病之一,其临床表现主要为社交沟通障碍、刻板行为和兴趣狭隘。根据《国际功能、残疾和 健康分类(儿童和青少年版)》,孤独症患儿的社交情感功能可以界定为两大方面:情感识别与理解以及情感调节与表达。
在这一段中,作者引用了我国和美国的相关数据,表示中美两国的孤独症患者数量每年都在以恐怖的比例增长。同时,这种疾病尚无特效治疗方案,而且治疗开销大、周期长,我国更是缺乏专业的诊疗队伍,也没有基于国情的行业标准和诊疗指南,孤独症的攻克是一大难题。
在这种背景下,孤独症情感识别与分析可以作为揭示病理机制的手段以及提供治疗新技术、新方法的指路灯。
1.3 情感图像内容分析
本文给出了情感图像内容分析的定义。
情感图像内容分析(affection image content analysis,AICA)的目标是理解认知层次的语义信息,识别图像对特定观看者或大多数人会诱发的情感 (Zhao 等,2021)。
在互联网时代的今天,人们开始使用图片、视频、文字等方式分享自己的生活和观点。AICA可以很好地凭借人们发布的图片,来分析判断他们的情感状态,帮助人们检测自己的心理健康状态,以完成预防、阻止极端情绪下的极端行为等事件的发生。



情感图像内容分析的发展历程

这里说明一下“基于手工设计的特征”的含义(参考某CSDN文章:http://t.csdn.cn/meveN)。
传统的手工特征大致有两类:底层特征和中层特征。其中,底层特征包括颜色、纹理、形状、梯度等基于图像自身的、较为简单的特征;而中层特征一般指在底层特征基础上进行多特征融合处理获得的特征。随着神经网络的快速发展,又出现了深层次的特征,即通过神经网络模型挖掘出的更深层、更抽象的图像特征。
在作者举到的几个例子中,底层特征有全局Wiccest和Gabor特征、艺术元素,中层特征有艺术原理,深层特征(原文是高层次)有形容词名词对。
借用Emotional Valence Categorization Using Holistic Image Features这篇论文(Yanulevskaya等人的研究,本篇综述中也有提到他们)里的介绍,Wiccest和Gabor特征都是对图像纹理结构提取出来的特征。原句如下,因为不是重点,就不翻译了。
Wiccest features utilize natural image statistics to effectively model texture information.
Gabor filters may be used to measure perceptual surface texture in an image.
1.4 面部表情识别
本文给出了面部表情识别的定义。
人脸表情分析(facial expression analysis,FEA)则属于计算机识别和解释人类情感状态的多学科研究领域——即情感计算的一部分,并建立在计算机视觉技术的基础之上,通过分析不同来源数据(如静态图像和视频)中的人脸表情,来直观地揭示人物情绪状态。
人的情感常常展现在其表情上,面部表情也是一种重要的非语言交流方式。作者在本节中谈到对人脸表情研究的历史:其实早在19世纪,集中于心理学和生物学方向上的研究就已经开始了。

  • 1862年,杜兴的面部电流刺激实验论证了面部肌肉产生表情的方法;
  • 1872年,达尔文指出人和动物拥有与生俱来的情绪和共同的情感生物起源;
  • 20世纪60年代,埃克曼定义了6种人类普遍表达的基本离散表情(即悲伤、恐惧、愤怒、开心、惊讶、厌恶);
  • 1978年,面部动作编码系统(facial action coding system,FACS)诞生,该系统根据人脸解剖学的特点,将面部肌肉划分成若干动作单元,以描述人脸表情的变化,如今该系统可观察到的动作单元组合已经达到7000余种。
1.5 面部微表情识别
与普通面部表情,即宏表情(macro-expression)不同,微表情(micro-expression)是一种转瞬即逝的自发人类脸部表情(Haggard和Isaacs,1966)。
事实证明,微表情有以下三个特点:

  • 能够映射其心理真实的变化和状态;
  • 持续时间短(一般在 \frac{1}{25} 至 \frac{1}{2} 秒内);
  • 动作幅度小(很难被未受过训练的人以肉眼观测到)。
心理学上对微表情的研究已经很久了,但人工智能领域才刚刚涉足十余年。自2011年,芬兰Oulu大学团队提出基于帧插值和多核学习(multiple kernel learning,MKL)的微表情识别方法并建立相关数据集后,计算机视觉(CV)与微表情研究的结合工作也越来越多了。
2、 国际研究现状

注:本节包括各领域在细节上的补充说明。
2.1 多模态情感识别
在多模态情感识别中,情感模态分为显性和隐性两类。其中,从人的身体变化直接得到情感状态的模态是显性(e.g. 表情、声音、脑电波);隐性模态指从多媒体平台上获取的用户信息(e.g. 网上发布的图像、视频、文字)。
多模态情感识别的数据集构建任务包括获取数据情感标注两部分。
先说获取数据部分,同样包括两种途径。

  • 在特定的场景下记录实验信息作为多模态情感数据;
  • 从多媒体平台获取用户上传的图像、视频、音频和文本模态的数据。
前者在实验人员设计好的场景下进行数据采集,代表性数据集是由英国伦敦大学Sander团队构建的DEAP数据集(database for emotion analysis using physiological signals),该数据集记录参与者观看音乐剧时的人脸视频、脑电图等信号;后者从受试者日常的社交平台中获取数据,代表性数据集是美国卡内基梅隆大学Louis-Philippe Morency教授团队创建的CMU-MOSEI(Carnegie Mellon University——Multimodal Opinion Sentiment and Emotion Intensity),该数据集由从YouTube用户上传的独白视频构成。
多模态情感识别的情感标注通常由参与人员手动打分,但也有不需要人工标注的特例,比如用演员表演的句子对应目标情感的EMODB数据集、以用户评价直接得出情感分数的Multi-ZOL数据集等。
多模态情感识别所面临的问题主要来自多模态融合情感识别两方面,每方面的问题都有三点。



多模态情感识别在多模态融合方向上的挑战



多模态情感识别在情感识别方向上的挑战

多模态情感识别的计算方法包括情感模态的表示方法情感模态的融合方法多模态情感识别的分类方法多模态情感识别的领域自适应方法
情感模态的表示,是存储和利用模态信息的基础。



情感模态的表示方法

情感模态的融合是多模态情感识别的一个关键步骤,旨在结合不同情感模态的表示信息,完成情感识别任务。



情感模态的融合方法


  • 先融合(又称特征融合):将不同情感模态的表示在时间上,同步后,连接为单个特征表示;
  • 后融合(又称决策融合):将每个情感模态的识别结果进行集成,比先融合的更灵活、更稳健;
  • 混合融合:使用一个统一的框架,将先融合与后融合结合起来并利用二者的优势,但成本较高。
目前,基于模型融合的方法比模型无关融合的方法更受人们的关注。
针对多模态情感识别的计算方法,作者在5个通用数据集上进行了非深度方法与深度方法的定量比较。
下图为作者比较的几种计算方法。



作者比较的几种多模态情感识别计算方法



在5个通用数据集进行非深度方法与深度方法的定量比较(截自原文的PDF)

作者得出的结论是:

  • 深度方法在多数情况下具有比非深度方法更好的表现;
  • 在不同数据集中,性能最好的模型也不同。



在CMU-MOSI数据集上使用基于Transformer进行词嵌入的多模态情感分类方法进行的定量实验

作者在CMU-MOSI数据集上使用基于Transformer进行词嵌入的多模态情感分类方法进行定量实验,这项实验中增加了代表微调的FT和代表多模态适应门的MAG这两种计算方法,作者分别使用了BERT和XLNet作为词嵌入,最终得出结论,基于Transformer的深度网络明显具有更好的性能,而基于XLNet的方法具有更稳定的优势
注:BERT全称Bidirectional Encoder Representation from Transformers,直译过来就是基于Transformer模型的双向编码器表示。
多模态情感识别的领域自适应方法,旨在从经过标注的源域上学习模型。
使用领域自适应方法训练后,模型在无标注的目标域上也能有不错的表现,是用来解决标签噪声问题的手段之一。目前,深度无监督领域自适应的方法有两条分支,即:

  • 在标记的源域上训练多模态情感模型;
  • 对齐源域与目标域的数据。
下面列举几个国际上比较有代表性的科研团队。



本文介绍的代表性科研团队

2.2 孤独症情感识别
目前,孤独症情感识别主要集中在面部情绪识别。
据研究,孤独症患儿在面部信息识别方面存在着障碍(e.g. 无法进行正常的社交或情感交流),因此,现在主流的孤独症筛查与干预工作都是在计算机视觉技术上展开的,但是多数情感分类模型都是在成人数据集上训练的,不适合应用到孤独症患者(多数为孩子)身上。
于是,很多研究者另辟蹊径,从更为巧妙的角度解决孤独症情感识别问题。



本文介绍的代表性科研团队

2.3 情感图像内容分析
情感图像分析一般包括数据集构建情感特征提取分类模型学习等部分。
在AICA研究初期,数据集通常来自于心理学或艺术学领域,数据集规模通常较小。作者列举了四种比较常用的数据集。

  • IAPS;
  • Abstract;
  • GAPED(Geneva Affective Picture Database);
  • MART(Museum of Modern and Contemporary Art of Trento and Rovereto )。
其中,IAPS最为常用。这是由Lang等人在1997年根据情感实验分析和心理学注意力研究创建的一种视觉情感刺激数据集,包含1182幅现实风格自然图像,并由约100位本科生标注为9种情感等级。IAPS的一个子集IAPSa由20 位本科生标注为8种离散情感类别。
后来很多的大型数据集都是靠爬虫技术获得的。作者举到的例子如下所示。

  • FI;
  • VSO;
  • Emotion6;
  • T4SA(Twitter for Sentiment Analysis);
  • LUCFER(Labeled University of Central Florida Emotion Recognition)。
下面介绍一些比较重要的数据集。
(1)VSO数据集(Borth 等,2013)
VSO数据集用1000多个形容词-名词对(Adjective-Noun Pair,简称ANP)作为检索词,从Flickr(雅虎旗下的图片分享网站)搜索并下载约50万幅图像。该数据集中,标注图像的ANP包含在图像对应的标题、标记或者描述等元数据中,采用Plutchik轮盘(一般译为普拉切克轮盘)的8种基本情感和3种强烈程度作为情感模型。
注:Plutchik轮盘的相关内容不细说,暂且放一张示意图。



从百度图片找来的普拉切克轮盘示意图

(2)Emotion6数据集(Peng 等,2015)
Emotion6同样使用来自于Flickr的图像,且基于优势度—激活度(Valence-Arousal,VA)分数和离散的情感分布两种情感模型进行标注。 作者这里把VA值翻译成优势度—激活度,我个人习惯上更倾向于说成愉悦度(Valence)和兴奋度(Arousal),前者表示情绪的消极与积极,后者衡量情绪的平静与激动,二者结合即可用坐标等形式表示任一情绪。
(3)FI(You 等,2016)
FI是一个基于Mikels的情感模型构建的、常用的大规模情感图像数据集。其图像通过使用8种情绪作为关键词,在 Flickr和Instagram(Facebook公司旗下的社交应用)搜索得到,且由200余位被雇佣的AMT员工进行标注。
接下来是情感特征提取,直接引用原文是这样的。
情感特征提取在AICA中起到至关重要的作用。研究者们提出了多种有效的视觉特征(从传统的手工特征到近期的深度特征)来表示情感。
这部分的特征可以分为三个层次。



低、中、高层次特征的特点



本文列举的低、中、高层次特征对应研究

注:图中提到的伊登12色环是色彩学上的重要概念,此处不介绍,直接放图。



从百度图片找来的伊登12色环示意图

近年来,基于学习的特征在AICI研究中越来越受重视,这种特征大致分为两类:全局特征局部特征

  • 全局特征:平等地处理和对待图像中每个区域;
  • 局部特征:基于心理学中关于情感区域的研究,侧重于提取包含丰富信息的局部特征。
这里列举作者提到的几种代表性方法。



本文介绍的代表性的全局特征处理方法

注:FC7、FC8是AlexNet模型中的层,这里不展开。
局部特征具有捕捉包含丰富信息的情感区域的能力,因此越发收到重视。



本文介绍的代表性的局部特征处理方法

注:Fisher Vector本质上是用似然函数的梯度vector来表达一幅图像,在图像分类、目标识别等领域有广泛的应用,知乎、CSDN等论坛有非常详细的讲解文章,这里不细说。
接下来是学习分类模型。



AICA领域中现有的分类模型

在研究初期,基本都是通过传统分类器对大众化情感进行识别,常用的分类器包括支持向量机(SVM)朴素贝叶斯(NBM)非线性矩阵补全(Nonlinear Matrix Completion)等。



本文所举的早期研究例子

近年来,大多数识别图像情感的研究都聚焦于设计基于学习的方法,也有通过改进传统的交叉熵损失函数和均方误差损失函数来改进AICA性能的相关研究出世。



本文介绍的代表性方法

搬运原文中比较重要的两句话。
领域自适应研究如何将有标注的源域数据上训练的模型,迁移到另一个稀疏标注或无标注的目标域。
语义一致性约束保证了中间域的图像能够保留源域的情感信息。



本文介绍的代表性方法

最后介绍一下国际上比较有代表性的几个团队,其中很多人在前文的介绍中已经出现过了。



本文介绍的代表性科研团队

2.4 面部表情识别
补充一个概念:研究者通过真实世界研究获取的数据被称为“真实世界数据”。
当前技术在真实世界基本表情的识别上,已经达到了很高的水平。例如在RAF-DB(Real-world Affective Faces Database)数据集上,最新技术已将7类基本表情(开心、悲伤、惊讶、害怕、厌恶、生气、中立)分类结果提高到90%以上。
但是,研究表明,基本表情在研究人的情绪、心理等方面还是不够用,无法覆盖人类所有的情绪。因此,为了进一步拓展表情模型的描述范围,相关研究通过将不同基本表情组合起来,提出了混合表情的概念。其中,复合表情作为一项特例,指由两种不同基本表情组合而来的表情类别。
国际上有很多广泛用于算法评估的真实世界人脸表情数据集和相应评估准则。



本文介绍的国际真实世界人脸表情数据集

注:因为本文对Valence-Arousal模型的翻译方式和我个人习惯不同,所以用英文表示,方便理解。
2.5 面部微表情分析与识别
本节从数据库构建微表情预处理方法微表情检测微表情识别几个方面阐述相关的进展。
2.5.1 微表情数据库构建
关于微表情的研究还处于初级阶段,因此,如何合理地构建微表情数据库就成为了当前的一大重要问题。
芬兰Oulu大学的团队在2013年扩展了此前的Pfister等所用的数据集,并正式发布了SMIC(Spontaneous Micro-expression Database)。Husák等人对视频网站上的扑克牌游戏视频进行标注,构建了MEVIEW(Microexpression Videos In the Wild)数据集。Davison等人构建了SAMM(the Spontaneous Actions and Micro-movements Dataset)数据集。
2.5.2 微表情预处理方法
对于动作幅度小、持续时间短的微表情,可以使用拉格朗日视频运动放大法,即采用拉格朗日视角(Lagrangian View)对运动进行描述和操作。
2.5.3 微表情检测



微表情检测任务

2.5.4 微表情识别
国际上早期微表情识别研究普遍使用手工设计特征,后来研究者们持续改进基于深度学习的微表情识别方法与技术,并使其发展迅速。



早期微表情识别研究



本文介绍的基于深度学习的微表情识别

3、 国内研究进展

3.1 多模态情感识别
先说多模态情感识别的数据集方面。



本文介绍的多模态情感识别数据集

下面是多模态情感识别的计算方法



本文介绍的多模态情感计算方法

关于秦兵教授的研究,补充一些关于共享语义和独享语义的内容。

  • 共享语义:图像、音频等模态的语义与文本提供的语义相同,这些重复的信息可以对原有语义进行增强;
  • 独享语义:非文本模态可以提供与文本语义不同的信息,这些语义信息可以帮助模型更准确地进行情感识别。
下面是多模态情感识别的应用



本文介绍的多模态情感识别应用

最后列举一下本文提到的国内代表性团队。



本文介绍的代表性科研团队

3.2 孤独症情感识别



本文介绍的代表性科研团队

注:凝视厌恶是自闭症常有的视觉特性,表现为患者会将目光移离或拒绝眼神接触。
孤独症患儿的社交情绪与情感是非常重要的部分,也是当前孤独症情感识别问题的核心内容。作者特别提到,国内外尚未出现针对孤独症社交情绪诊疗的机器智能辅助系统
3.3 情感图像内容分析
国内学者的研究步骤与国外相同,即数据集构建情感特征提取分类模型学习三部分。
数据集方面,国内比较重要的数据集有姚鸿勋教授的IESN数据集(Image-emotion-social-net Database)、杨巨峰教授的Comics数据集Flickr_LDL数据集Twitter_LDL数据集



本文介绍的数据集

手工情感特征方面,国内的主要进展如下。



本文介绍的手工情感特征研究进展

以下为杨巨峰教授的团队在深度全局特征和局部特征提取上的研究成果。

  • 提出一个由不同层的Gram矩阵元素组成的情感表示方法;
  • 提出了使用离线物体检测工具生成候选边界框,结合在去重后区域中提取的特征和全局图像的特征进行情感分类;
  • 提出了一个包含分类分支和检测分支的统一结构,将全局特征和情感图耦合,得到完整的局部信息;
  • 在低层次和高层次分别添加极性注意力和情感注意力,通过跨层次的双线性池融合不同层次的特征,生成最终的情感表示。
西安电子科技大学高新波教授团队在物体与情感关系的挖掘大众化情感分类模型有所成就。

  • 基于心理学框架,确定可能激发某种情感的刺激,并提取其特征;
  • 提出基于图卷积网络的场景—物体相关情感推理网络;
  • 提出了层次化的交叉熵损失函数来 加大对错误分类样本的惩罚。
注:在上述三项研究中,前两项研究属于物体与情感关系的挖掘问题,第三项研究属于大众化情感分类模型。
以下列举了国内关于个性化情感预测的两个代表性工作。



本文介绍的个性化情感预测工作

下面介绍国内在图像情感分布学习任务上的代表性团队。



本文介绍的做图像情感分布学习的团队

注:BCPNN全称为Binary Conditional Probability Neural Network,ACPNN全称为Augmented Conditional Probability Neural Network。
同时,补充一些研究(摘自原文)。
丁贵广教授团队和姚鸿勋教授团队在连续的情感空间中使用混合高斯模型建模连续分布(Zhao 等,2017c),用期望最大化算法预测参数值,使用共享稀疏回归( shared sparse regression, SSR)作为学习的模型,并且扩展至多任务SSR来挖掘不同任务之间的相关性,通过使用合适的跨任务共享参数来预测不同测试图像的参数。
最后列举国内情感图像内容分析领域的代表性团队。



本文介绍的国内情感图像内容分析领域的代表性团队

3. 4 面部表情识别
先介绍一些真实世界人脸表情数据集。



本文介绍的真实世界人脸表情数据集

本文将从不确定性学习关系学习解耦学习三个角度进行分析。
3.4.1 不确定性学习
在打标签时,人对表情的主观判断多多少少会造成噪音,因此出现不确定性学习,以降低数据的噪声。目前有几种比较好的方法来解决这个问题。

  • 通过全连接层计算出每个样本对应的权重,并将该权重作用到softmax函数的指数部分,从而降低不确定性较高的样本所占权重,以控制数据的噪声;
  • 依次dropout某一类别的样本,并通过分别学习独立的网络分支来获取每个样本的潜在标签分布, 从而巧妙地分散噪声标签的影响;
  • 使用不确定度作为权重对图像的特征进行加权混合,通过对比进行不确定度的学习,利用损失函数 从混合特征中同时识别出两种表情,在降低损失函数的过程中,通过整个训练中大量的对比,自动学习到图像的不确定度值。
3.4.2 关系学习
关系学习是利用情感之间的关联性提升情感识别性能的方法,关系学习既可以作用在类别之间,也可以作用在动作特征之间
本节提到的标签分布学习,就是一种典型的类别间的关系学习方法;而关系学习可以与图神经网络相结合,得到表情特征之间分布状态、关联程度等信息的模型。当然,作为当代最火热的模型,Transformer也被广泛地应用在面部表情识别的关系学习之中。



本文介绍的关系学习方法

3.4.3 解耦学习
大致解释一下耦合与解耦。这是来自百度的解释。
耦合是指两个或两个以上的体系或两种运动形式间通过相互作用而彼此影响以至联合起来的现象。 解耦就是用数学方法将两种运动分离开来处理问题,常用解耦方法就是忽略或简化对所研究问题影响较小的一种运动,只分析主要的运动。
通俗来说,“耦合”就是“关联”和“有”的意思;“解耦”就是通过“让他没有关联”和“让他没有”从而方便理解某写东西的意思(我只是这么一解释,肯定不客观,但比较容易理解)。
在本文中,所谓的解耦学习,就是指通过解耦手段,降低不重要信息与重要信息的关联性以及前者在学习中的权重,从而提高整个模型的效率和性能。再说明白些,解耦学习的本质就是个降噪问题。



本文介绍的解耦学习方法

3.5 面部微表情分析与识别
3.5.1 微表情数据库构建
列举国内的一些微表情数据库。

  • CASME(the Chinese Academy of Sciences Micro-expression);
  • CASME Ⅱ ;
  • CAS(ME) 2 ;
  • MMEW(micro-and-macro expression warehouse)。
作者这里提了一嘴SMIC(Spontaneous Micro-expression Database),据我收集到的信息,这是由芬兰奥卢大学机器学习视觉研究中心的赵国英团队在2012年建成的,应该不能算国产数据库吧(我也不确定)?
作者表示,从SMIC到CASME,再到MMEW,研究者们都是要求志愿者在中性表情的状态下观看一系列具有较强情绪导向的视频来获取微表情数据的。为了扩充数据集的功能,研究者在原有数据库的基础上增加了长序列的数据,得到CAS(ME)2、SAMM、SMIC-E-Long等数据集。
研究者希望增加数据集中的志愿者数量、样本数量并提升数据的分辨率大小,也有研究者尝试了增加人脸运动单元(AU)、合并多个数据集等方法。
3.5.2 微表情预处理方法
这里列举几种方法。

  • 欧拉视频运动放大方法;
  • 基于图模型的插值方法;
  • 上述二者的结合;
  • 对数据的预处理。
补充:在对数据进行预处理时,很多研究者采用的是GAN及其变种。
3.5.3 微表情检测
被利用在微表情检测上的面部信息表达有很多,作者这里列举到的有局部描述子的差分光流的运动向量光流主方向的模最大差分以及光流的夹角和模信息等。
同时,也有对针对峰值帧(apex frame)的检测方法的尝试,有根据微表情发生时的局部时域模式而提出的基于S-模式的微表情检测方法,有根据AU细化子标签的方法,当然也有attention机制,即注意力机制的引入
3.5.4 微表情识别
早期,微表情识别领域普遍使用手工设计特征,比较广泛使用的几类如下。

  • 局部二值模式(Local Binary Patter, LBP) ;
  • STLBP-IP(Spatiotemporal Local Binary Pattern With Integral Projection);
  • STCLQP(Spatiotemporal Completed Local Quantized Patterns);
  • HSTLBP-IP(Hierarchical Spatiotemporal Local Binary Pattern With Integral Projection);
  • DiSTLBP-RIP(Discriminative Spatiotemporal Local Binary Pattern With Revisited Integral Projection)。
后来有人提出TOP类特征的改进实现,描述子(刻画特征的一个数据结构,一个描述子的维数可以是多维的,本则解释来自链接http://t.csdn.cn/FXThZ)的计算效率得到提升。
接下来这段放一下原文。
Li 等人(2015,2018)对LBP、HIGO(Histograms of Image Gradient Orientation)和HOG(Histograms of Oriented Gradients)的时空变种进行对比,发现只体现梯度方向信息而不反映梯度能量信息的HIGO-TOP描述子在微表情分析上相比LBP-TOP和HOG-TOP更为高效。在此基础上构建了第1个完整的微表情检测与识别的系统,并进行了人机对战实验。
同时,颜色空间特征协方差矩阵基于光流特征的运动信息等方面也愈发受到关注。
下图为微表情分析领域的优秀成果。



本文介绍的微表情分析领域成果

4、国内外研究进展比较

注:在这一部分,我只放作者的结论,具体分析过程省略。
4.1 多模态情感识别

  • 国内缺乏大规模的数据集;
  • 国内缺乏包含显性模态信息的数据集;
  • 国内学者在计算方法的创新性上取得较大突破,具有一定优势;
  • 国内做出了很多尝试与应用。
4.2 孤独症情感识别

  • 国内的相关研究起步较晚;
  • 国内缺乏相关专业团队、临床医师和诊疗机构,医疗资源较少;
  • 国内尚无完善、专业、权威的诊疗指南;
  • 国内外学者研究侧重点不同(详情请见下图);
  • 国内孤独症相关产业(如医疗、护理等)尚未发展。



国内外学者在孤独症情感识别领域的研究差异

目前,国内外均缺乏有效的孤独症情感干预系统与设备。全球范围内,相关领域的发展刻不容缓。
4.3 情感图像内容分析

  • 国内的相关研究起步较晚,但是发展势头较猛,在部分任务上已处于领跑状态;
  • 缺乏国产的百万级甚至更大规模数据集;
  • 在个性化情感预测和情感分布学习任务上已经走在国际前列;
  • 从噪声数据或少量标签数据中进行图像情感识别的工作有些滞后,在特定情况下的AICA研究还需加强;
  • 缺乏AICA的实际应用。
4.4 微表情分析与识别
在微表情分析领域,国内外合作十分密切,研究进展基本同步。
5、发展趋势与展望

5.1 多模态情感识别
作者提出了两个建议,希望未来的研究可以:

  • 从研究方法的角度考虑;
  • 从应用的角度考虑。
一来,作者认为可以从先验信息因素、显隐性情感状态等奇妙的角度进行研究;二来,后续的研究应该使多模态情感识别的场景更贴近现实生活,量化多模态情感识别的模型也是非常重要的一环。
5.2 孤独症情感识别
作者认为,现在的研究过于专注在孤独症患儿与他人的交流上,而非患儿对自己的内省。因此,作者认为,后续研究的重点应该是探究孤独症患儿的情感体验和表达机制,并分析孤独症情感与社交能力之间联系。同时,医疗设备与干预系统也是重要的发展对象。
5.3 情感图像内容分析
作者提出了一些开放性的研究课题。

  • 图像内容和上下文理解;
  • 观看者上下文和先验知识建模;
  • 群体情感聚类;
  • 观看者与图像交互;
  • 高效的AICA学习。
5.4 面部表情识别
作者认为,在面部表情识别领域,以下几个问题仍未得到很好的解决。

  • 数据采集和标注问题
  • 实时表情分析问题
  • 混合表情识别问题
  • 个体情感表达差异问题
  • 用户隐私问题。
5.5 微表情分析与识别
在微表情分析与识别领域,目前最大的问题就是数据集。当前的数据集规模都不是很大,且正如上文所说,这些数据的来源都是研究者对志愿者的刻意引导,并非人在自然状态下产生的面部微表情,精度方面又有所欠缺。因此,如何获取大量的、高价值的、自然产生的微表情数据,是丞待解决的重要问题。
同时,AU在微表情领域是否发挥与在宏表情领域中相同的作用?这也是需要探索的地方。
<hr/>因为是综述,也不好做第三遍阅读,或许后续会写点感悟啥的吧。
到此,全文阅读完毕。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|第一问答网

GMT+8, 2025-4-17 17:57 , Processed in 0.109952 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.. 技术支持 by 巅峰设计

快速回复 返回顶部 返回列表