针刺手法学习和传承的高阶方式!快来看看人工智能 机器学习如何实现
一种基于计算机视觉的
针刺手法分类系统开发与应用
涂涛1,苏业豪1,宿翀1,王磊2,赵亚楠2,陈捷3
(1北京化工大学信息科学与技术学院;2中国中医科学院针灸研究所;3北京市中关村医院中医综合科)
目前针灸教学多是以教科书、穴位模型、教师课堂讲解的方式进行,但是受个人习惯及每个人对针刺动作理解不同的限制,使得同一类型针刺名称下不同操作者针刺手法存在差距,最终导致临床疗效产生差异,因此急需提升针刺手法建模与传承的科学性。应用计算机技术对专家的针刺手法进行“视觉”建模,可以为针灸规范化与标准化操作提供参考。本文旨在开发一种对输入针刺手法视频进行自动分类的系统,该系统可用于针刺手法的教学,指导学生学习,有助于针灸的传承与发展。
Computer vision
目前,众多学者从触觉角度来研究针刺手法的量化机制,并进行手法的仿真,在针刺手法量化、针刺手法仿真仪开发、基于三维动作捕获分析系统的针刺手法建模等方面做了一定的尝试。然而,目前手法仪的构建大多是依赖硬件设备来读取手指的运动参数,这种方法对动作的精度要求很高,但是往往会对做动作的人产生一定的心理影响,可能会导致动作变形。因此,引入计算机图像分析方法,在不影响针灸医师手感的情况下,设计一类基于针灸医师录制的针刺操作视频进行手法分类,符合我国中医药现代化的国家战略要求。随着深度学习的不断发展,神经网络在基于视频的图像分类和动态手势分类领域不断进步,使用神经网络可以对手势视频进行特征提取,并进行训练和分类。因此,本研究通过一种基于双卷积池化结构的三维卷积神经网络(3D-CNN)和长短时记忆网络(LSTM)的混合深度学习网络,来对计算机视觉下的常见针刺手法进行分类。
构建一种计算机视觉下的基于三维卷积神经网络和长短时记忆网络的混合深度学习网络模型,提取针刺手法视频帧序列的时空特征,将其输入分类器中实现分类。
Part 1
计算机视觉下的针刺手法
分类方法
本文提出一种基于计算机视觉的针刺手法采集和分类系统。该系统主要分为两部分:第一部分是用摄像机录制专家的施针手法视频,如图1所示;第二部分是将录制好的手法视频数据输入计算机中,使用深度学习神经网络技术进行训练,得到一个可以自动分类针刺手法的模型。
1.1实验数据采集方法
本文以针刺作用力方向的角度进行研究,以捻转法和提插法两种基本针刺手法作为观察对象,进行针刺手法的计算机视觉分类研究。如图2所示,实验所用数据集包含有捻转和提插两种针刺手法,录制了来自中国中医科学院针灸研究所的5位医生的200个手法视频,每个手法视频时长控制在大约1s,其中包含1次针刺动作,录制的针刺手法视频的帧率为30帧/s。
1.2针刺手势分类方法
将视频帧序列进行预处理,将每帧图像使用局部二进制模式(LBP)提取纹理特征,并将预处理后的帧序列输入到神经网络中进行训练和分类。本文提出一种3D-CNN和LSTM的混合深度学习网络。3D-CNN网络能够对视频序列中手势的空间特征进行提取,LSTM网络能够对视频序列中手势的时间特征进行处理,并且两种网络之间使用张量的形式进行传递,经过神经网络处理后的时空特征输入全连接层和分类器中进行分类。如图3、图4所示。
(点击看大图)
1.3 实验设置
本实验基于tensorflow1.14.0框架,使用python3.6.4版本进行编程。有效数据集为200个手法视频,将140个视频数据作为训练集,60个视频数据作为验证集。由3D-CNN和LSTM组成的混合神经网络的结构和相关参数,如图5所示。
(点击看大图)
Part 2
结果
训练模型对视频帧序列读取时,将重新归一化图像的尺寸,当输入图片尺寸不同时,对网络的训练速度、网络训练的准确率均有影响。另外,每批输入数据的数量(batch_size)也会对实验准确率造成影响,所以设置了两组实验,第1组是batch_size固定的情况下,研究不同输入图片尺寸对训练准确率的影响,第2组是在输入图片尺寸固定的情况下,研究不同batch_size对训练准确率的影响。在batch_size为15的情况下,对3种图片尺寸进行训练,训练损失函数和准确率随迭代次数的变化趋势,如图6所示。不同尺寸训练帧图像下的训练准确率如表1所示。此外,不同batch_size下的神经网络训练结果如表2所示。
针对200组录制的医师针刺手法视频,应用所提混合网络模型对“捻转”和“提插”两类手法进行分类,训练准确率达到95.4%,验证准确率达到95.3%。
Part 3
讨论
本文构建了一种基于3D-CNN和LSTM的混合深度学习神经网络来提取视频帧序列的时空特征,再将其输入分类器中实现针刺手法分类。研究了不同输入尺寸和不同batch_size对神经网络进行针刺手法分类的影响,经过多组对比实验,确定输入图片尺寸为128×128,batch_size为15时,网络性能最好。
本文所提的混合神经网络在准确率方面还有提升空间,可以通过调整网络的结构进行优化,如卷积核的大小设置、卷积层的数目、LSTM网络中的结点个数等等。未来可以考虑将针刺手法的视频信息特征与其他模态的特征如电信号特征进行融合以进一步加强对针刺手法的识别。通过捕捉在施针时,受针部位的温度变化或是通过传感器对施针时手部按压针的力度大小、针的旋转角度的变化来与针刺手法形成映射,作为判断针刺手法类别的依据。
针对针刺手法这类微动作手势的分类问题,本研究从视频帧序列的角度,提出了一种基于混合深度学习神经网络的分类方法。通过对施针手势的动作信息的处理和计算,构建了3D-CNN和LSTM组成的混合神经网络模型。将视频中施针手势的视频信息转化为矩阵和张量的形式,并经过混合神经网络提取出针刺手法中手势的时间特征和空间特征,捕捉手势的运动信息,再将其输入分类器中实现对针刺手法的分类。结合现代科学技术发展成果,充分利用人工智能等信息科学技术,开发基于计算机视觉的针刺手法分类系统,对于促进针刺机制研究及推进针刺研究现代化具有重要意义。
在手势分类准确率方面,本文所提出的3D-CNN与LSTM混合网络的验证准确率约为95.3%,可以体现出本研究手势分类流程的正确性与有效性,使计算机具备了对场景单一的动态手势进行分类的功能。
来源:涂涛,苏业豪,宿翀,王磊,赵亚楠,陈捷.一种基于计算机视觉的针刺手法分类系统开发与应用[J].针刺研究,2021,46(6):469-473.