ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
稀疏特征的简介
信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬勃发展。信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等
数学变换会追求所谓稀疏表示(sparse representation),即如何通过最小数量的系数尽可能更多的描述信号的能量。不同类型的信号,其在不同变换下系数的分布会不同。
信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。信号稀疏表示方向的研究热点主要集中在稀疏分解算法、超完备原子字典、和稀疏表示的应用等方面。
1、稀疏表示在图像处理领域的应用的几个方面:
- 图像去噪:传统的去噪方法往往假设含噪图像的有用信息处在低频区域,而噪声信息处在高频区域,从而基于中值滤波、Wiener 滤波、小波变换等方法实现图像去噪,而实际上这种假设并不总是成立的。基于图像的稀疏表示,近几年来研究者们提出了基于过完备字典稀疏表示的图像去噪模型,其基本原理是将图像的稀疏表示作为有用信息,将逼近残差视为噪声。利用 K-SVD 算法求得基于稀疏和冗余的训练字典,同时针对 K-SVD 算法仅适合处理小规模数据的局限,通过定义全局最优来强制图像局部块的稀疏性。文献提出了稀疏性正则化的图像泊松去噪算法,该算法采用 log 的泊松似然函数作为保真项,用图像在冗余字典下稀疏性约束作为正则项,从而取得更好的去噪效果。
- 人脸识别:近年来,稀疏表示广泛应用于人脸识别,并取得了很好的识别效果。Wright 等人认为:①同类样本处于同一个线性子空间,任一测试样本均可以用来自于该类的训练样本进行线性表示;②用所有的训练样本构成字典,则测试样本在该字典上的表示是稀疏的,同时该稀疏系数包含了样本的类别信息。基于此,Wright 等提出了基于稀疏表示的人脸识别框架,即首先基于人脸库构造过完备字典,然后计算待测图像在该字典上的稀疏系数,再根据重构误差判别图像身份。该算法对特征选择不敏感,有很强的抗噪声能力,并且具有较好的遮挡处理功能,从而在人脸识别领域得到了广泛关注。提出加权稀疏编码算法,该方法在解决人脸遮挡、光照、表情等方面取得了较好的效果。为了解决小维度,小样本的人脸识别问题,提出了基于稀疏表示和奇异值分解的人脸识别算法,实验表明该方法在 ORL 人脸库上取得了较好的效果。
- 目标跟踪:近年来,稀疏表示在目标跟踪领域也得到的广泛应用。针对红外图像序列中目标与背景对比度低、灰度特征易受噪声影响等问题,提出了一种基于稀疏表示模型的红外目标跟踪算法。提出了一个新的基于稀疏表示的目标跟踪方法,通过L1 范数最小化求解,实验结果表明,该方法比现有的基于 L1 范数最小化的跟踪方法性能更稳定、计算效率更高。为了有效解决跟踪过程中的目标遮挡问题,提出了一种基于局部稀疏表示模型的跟踪方法。实验结果表明,该方法比各种流行跟踪方法稳定可靠且具有良好的抗遮挡性,并对海上红外目标跟踪取得良好效果。图像修复随着稀疏表示研究的深入,稀疏表示在图像修复领域也得到了广泛应用[35-37]。为了确保修复时填充洞和周围之间的视觉合理性与一致性,Shen 等人提出直接在待处理图像完整区域采样,构造冗余字典,然后通过依次计算洞边界不完整的块的稀疏表示进行恢复。该算法在处理大洞和保留图像细节方面具有较好的能力。针对现有图像修复方法中待填充块在全局搜索与之最匹配块的计算复杂度高、结构连贯性和纹理清晰性不佳的缺点,文献[36]提出了基于块结构稀疏度的自适应图像修复算法。针对图像结构信息缺损较大的图像,提出利用结构约束和样本稀疏表示实现图像修复,该方法既能较好的修复图像边缘结构,又能保持结构的整体平滑性。
- 压缩感知:为了有效重构原信号,传统方式下需要基于奈奎斯特采样定理实现对信号的采样。近年来,随着稀疏表示的兴起为重构原信号提出了一种新的理论-压缩感知。压缩感知理论突破了奈奎斯特采样频率的下限,它以信号的稀疏性(或可压缩性)作为前提,将传统方式下对信号的采样和压缩两个过程融为一个过程,直接获取稀疏信号,然后用一个与变换矩阵无关的观测矩阵对变换系数向量进行变换,最后通过求解一个优化问题重构原信号。目前,国内外研究人员在该领域进行了深入研究,并提出了有效的压缩感知理论与方法。
2、树模型下的稀疏特征
稀疏特征的如何处理
1、统一的稀疏特征处理方案:将稀疏特征视为缺失值。
Algorithm 3: Sparsity-aware Split Finding 稀疏感知分割发现
稀疏特征的案例应用
1、在数据高度稀疏的Allstate-10K 数据集上稀疏算法比基本算法快近50倍。
赞 (0)