让机器“看见”:图像数据的特征提取方法
每日干货 & 每月组队学习,不错过
作者:谢雨飞,趣头条算法工程师
基于结构形态的特征提取
通常情况下,基于结构形态的特征有两类表示方法,一类是轮廓特征,另一类是区域特征。基于结构形态的特征提取方法主要是将字符图像的结构形态转化为特征向量,主要包括边界特征法、傅里叶特征算子法、形状不变矩法以及几何参数法。
边界特征法
边界特征法,顾名思义,该方法主要关注的是图像边界部分的特征。其中,霍夫变换法和边界方向直方图法是两种最典型的边界特征法。
1. 霍夫变换
下面我们给出一个小例子,通过霍夫变换来检测图片中的直线。
原始图片
具体代码如下:
#coding=utf-8
import cv2
import numpy as np
im = cv2.imread('hough.png')
edges = cv2.Canny(im, 50, 150, apertureSize=3)
result = im.copy()
minLineLength = 10
maxLineGap = 30
lines = cv2.HoughLinesP(edges, 1, np.pi/180, 200, minLineLength, maxLineGap)
for x1, y1, x2, y2 in lines[0]:
cv2.line(result, (x1, y1), (x2, y2), (0, 0, 255), 2)
cv2.imwrite('hough_result.png', result)
Canny边缘检测算子主要包括以下四个步骤。
用高斯滤波器对图像进行平滑处理。
用一阶偏导的有限差分来计算梯度的幅值和方向。
对梯度的幅值进行非极大值抑制处理。
用双阈值算法检测和连接图像的边缘。
以下图(图左为原图,图右为灰度图)所示,给出Canny边缘检测算子的代码。
Canny算子进行图像边缘检测的具体代码:
#coding=utf-8
import cv2
image = cv2.imread('lena.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
#Canny边缘检测
canny = cv2.Canny(image, 30, 150)
cv2.imwrite('Canny.jpg', canny)
上述代码输出结果如图所示:
傅里叶特征算子法
1. 离散傅里叶变换
离散傅里叶变换是图像处理中常用的一种变换手段。通过离散傅里叶变换,我们可以将图像的信号从时域转换到频域。
一般来说,如果我们将目标边界看成是从某一个点出发,则沿着该边界顺时针旋转一周的周边长可以用一个复函数来表示。换句话说就是,边界上点的坐标可以用如下复数来表示:
代码如下:
#coding=utf-8
import cv2
import numpy as np
#直接读为灰度图像
img = cv2.imread('fuliye.png', 0)
f = np.fft.fft2(img)
fshift = np.fft.fftshift(f)
#先取绝对值,表示取模。再取对数,将数据范围变小
magnitude_spectrum = 20*np.log(np.abs(fshift))
cv2.imwrite('original.jpg', img)
cv2.imwrite('center.jpg', magnitude_spectrum)
形状不变矩法
形状不变矩法的主要思想是将对变换不敏感的、基于区域的几何矩特征作为形状特征。之所以称之为“不变矩”,是因为矩特征在旋转、平移、尺度缩放的环境下都不会发生改变。
1. 矩的定义
上式中的和可以取所有的自然数,所以上式构建了一个矩的集合,且集合与函数具有唯一性。
接下来,我们给出中心矩的定义:
如果是离散函数,则中心矩的表达式为:
在此基础上,归一化的中心矩的定义如下:
2. 不变矩
根据归一化之后的中心矩,对旋转、平移、尺度等都不敏感的七个不变矩。下面我们对同一幅图像,分别进行尺度缩小为原始图像的一半、逆时针旋转5度操作以及垂直镜像变换的操作,分别求出原始图像及变换后的各个图像的七阶矩。可以得出,这七阶矩的值对于尺度、旋转及镜像变换不敏感。程序代码如下:
import cv2
from datetime import datetime
import numpy as np
np.set_printoptions(suppress=True)
def my_humoments(img_gray):
moments = cv2.moments(img_gray)
humoments = cv2.HuMoments(moments)
#取对数
humoments = np.log(np.abs(humoments))
print(humoments)
if __name__ == '__main__':
t1 = datetime.now()
fp = 'lena.jpg'
img = cv2.imread(fp)
#缩放
h,w,_ = img.shape
img = cv2.resize(img, (h/2, w/2), cv2.INTER_LINEAR)
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imwrite('scale.jpg',img_gray)
#旋转
(h, w) = img.shape[:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, 5, 1.0)
img = cv2.warpAffine(img, M, (w, h))
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imwrite('rotate.jpg', img_gray)
#垂直镜像
img = cv2.flip(img, 0, dst=None)
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imwrite('flip.jpg',img_gray)
my_humoments(img_gray)
原始图像(图左为原图,图右为其灰度图):
程序运行后结果如下:
几何参数法
几何参数法主要包括像素与邻域、位置、方向、距离、区域周长和区域面积。
1. 像素与邻域
一幅图像中,位于坐标处的像素有4个相邻的像素,分别位于其上下左右,坐标分别为,如下图所示。
有时我们不仅需要某个像素点周围4个像素的值,而且需要其周围8个像素的值,此时8个点的坐标分别为、、、、、、、,如下图所示。
2. 位置
形心公式如下:
像圆形这样的图形,很难定义它的方向。一般地,我们在定义方向的时候,为了保证唯一性,事先假定物体的形状是长方形,它的长边即物体的方向。
4. 距离
在图像处理领域,常用的距离公式包括欧几里得距离、4邻域距离以及8邻域距离。假设两个点的坐标分别为、,则AB两点之间的距离公式如下:
欧几里得距离(欧氏距离)
8邻域距离
5. 区域周长
图像中某个区域的周长的计算方式有三种,具体如下:
区域的周长可以用区域边界所占的面积表示,可以认为是边界的像素点数量。
如果将像素看成是一个个单独的点,那么区域的周长就可以认为是区域的边界8链码的长度。
如果将像素看成是图像中一个个单位面积的小方格,那么可认为区域和背景都是由方格组成的。区域的周长就可以定义为区域和背景的交界线的长度。
6. 区域面积
基于几何分布的特征提取
基于几何分布的特征提取方法大致可以分为两类,一类是二维直方图投影法,另一类区域网格统计法。
二维直方图投影法
在水平方向和竖直方向分别对原图进行投影,然后分别按照行列方向统计黑色像素的值且进行归一化,最终得到特征向量。以图3-24a的二值字符“3”为例,可以得到68维的特征向量值,如下表所示。