世界瞩目的人工智能是怎么被否定的 ——工学博士顾泽苍,株式会社阿波罗日本最高技术责任者
时下人工智能技术在国际范围内沸腾,由于网络时代传媒的快速化,大范围化传播以及信息的不确定性的特点,再加上商家的炒作,纵使人工智能被社会推向了神秘化的地步,甚至出现人工智能危险论的宣传,以及人类将被人工智能的机器人统治的谬论的传播。
在这一时期,一些专家学者也利用自己的所掌握的知识尽情的发挥,发布了很多不切合实际的言论,把人工智能概念模糊化了,使年轻的研究者分不清什么是人工智能,什么是模式识别,什么是机器人。。。搞不清从那些方面入手会得到事半功倍的研究与应用效果?
笔者根据多年从事这方面的研究,重点以自己亲身的精力,以及个人对人工智能技术的理解,立足提出一个可供年轻科研人员在未来的研究中开辟一个新的道路,让人工知能落地特撰写此文章。
什么是人工智能?简单讲就是用计算机实现人的头脑功能,既通过计算机实现人的头脑思维所产生的效果,人工智能算法所要处理的问题,以及处理后的结果是不可预测的。
目前之所以在社会上把普通的模式识别,机器人技术混同于人工智能,其根本原因就是对人工智能的概念不清楚,因此把一切先进的技术统统归属于人工智能,这反而会影响人工智能的发展。
长期以来人们习惯于把导入计算机处理的系统统称为智能系统,所以看到人工智能的词汇时马上就联想到智能系统,其实这是完全不同的两个概念,智能系统是依据确定性的算法所实现的系统,是按照一种算法实现某种目标函数的处理,其处理结果是确定性的。例如自动控制系统,通过闭环的PID调节,使机械位置能够尽快达到所定位置,使温度尽快到所定指标等等,这种算法往往是经典的理论,还有在模式识别的智能系统中有很多经典的分类的算法,例如利用欧几里德距离,可以计算出一个特征向量数据同若干个向量数据中的那个向量数据最接近,这些都是模式识别的基本算法,导入这些算法的模式识别系统就是一个智能的系统。
再有在机器人系统中,机器人的行走以及手臂的动作需要人为的事先通过程序输入到机器人系统中,机器人才可以按照人为输入的程序进行行走以及作各种手臂动作,局外人看着机器人的动作还以为是同人一样可以随心所欲的作出各种动作,其实不然,在机器人行走过程中如果路上出现一个不可预知的障碍物,这时机器人肯定会被绊倒,然而如果在机器人系统中搭载了人工智能的算法,就可以由机器人自己的判断,自主的绕过障碍物。所以普通的智能系统与人工智能的区别归纳起来就是:普通智能系统是经典的算法,是仅以满足目标函数的算法,是解决其结果是可预测性问题的算法,人工智能是模仿大脑处理问题的方法,或能客观上实现了人脑所能实现的处理,所要解决的问题,以及处理的结果往往是不确定性的,或者说是事先不可预知的。
1.基于知识库技术的专家系统
直到今天客观地讲,人工智能的最成功的应用应该是知识库技术的专家系统,早在20多年前,我们研究室里就针对手写文字如何看起来美观为题开发了手写文字的专家系统,把美观的手写文字的规则输入到知识库中,运用这个系统可解决苦于手写字不流畅的企业负责人手写书信问题,通过专家系统的处理既保留了企业负责人书写文字的个性化,同时看起来又具有一定的美观效果。
今天同20多年前落后的硬件环境相比,可以借助大型网络服务器构筑社会性的大知识库系统,可以得到意想不到的应用效果,例如最近日本在网络服务器上建立了10万人的语音知识库,因此可以实现完全无障碍的进行自动语音交流,目前用于外国游客坐出租时的自动翻译系统中。
基于知识库技术的专家系统是把人的经过头脑加工的知识通过标准的知识库的形式归纳起来,使专家系统能够达到人脑所能实现的处理功能,因此可以解决传统算法所解决不了的难题。
2.基于模糊数学的空间映射理论**
空间映射这个理论的倡导者至今才发现这个理论是属于人工智能范畴的理论。空间映射理论的原理是针对类似人脸识别,图像识别或文字识别这样的复杂系的模式识别问题,由于复杂系的问题往往很难找到可以直接解决的算法,因此不能像传统的智能系统,直接的通过传统的算法进行处理,基于模糊数学的空间映射理论是把一个复杂系空间的问题映射到若干个简单系的空间的问题,虽然在每一个简单系的空间中只能解决有限的问题,但是根据组合理论若干个简单系空间的组合却能解决复杂系空间的问题,在这里最重要的是由复杂系空间问题映射到简单系空间,是基于人的大脑的处理,学术上称为人为介入的方法,由于传统的数学方法非常死板不易进行人为介入,模糊数学给我们提供了便利,可以根据人为对处理对象的理解,从若干个角度通过模糊数学的Membership函数进行定式,从而实现对复杂系问题的解决,由于这样的算法是按照人的头脑处理方式再通过模糊数学的定式达到解决复杂系问题的效果,因此应当属于人工智能的理论范畴。
利用这样的理论20多年前在日本的手写体数字的自动识别上得到了非常高水平的应用效果,可以根据人为的认识文字的结果,比如在区别数字“9”和数字“4”的识别上,当初使用的扫描仪的解像度只有100dpi,扫描后的数字“9”和数字“4”如果数字“4”在下面的笔画较长时,很容易识别成数字“9”,反过来手写的“9” 在下面的笔画较短时,可能会识别成数字“4”的结果,利用空间映射这个理论中的Membership函数定式,可以把数字“9”,以及数字“4”的模糊值都可以量化,所以可以针对非在线手写文字的识别问题,得到非常高精度的识别结果。该技术在当时主要用于超市的传票自动高速读取系统中,成为当时日本代表性的手写文字的方法。
利用这样的理论日本电气化轨道交通的无人驾驶系统可以成功的按照驾驶员的经验通过模糊推论,自动的处理在自动驾驶过程中的随机问题,可以平稳的自动驾驶列车进行各种不同条件的运行。
3.基于神经网络的深度学习理论
神经网络的深度学习理论由于是基于直接模仿人的大脑的神经元的信息处理的机理,因为当仁不让的属于人工智能范畴的算法。人们对这个算法曾经寄托了很大的希望,相信能够在模式识别这样复杂系的问题上得到令人意想不到的应用效果,遗憾的是神经网络算法从一开始就遇到计算复杂度高,迭代收敛慢很难得到实际的应用的难题。进入2000年以后,神经网络技术升华为深度学习技术,人们再次掀起对神经网络技术高度的期望,但是能够大规模的应用所必需的具有突破性的技术进步还很难看出。
4.概率尺度自组织理论**
早在20多年前为了能同神经网络技术相对抗,所提出的概率尺度自组织理论的发明者也是至今才知道这个理论是属于机器学习理论。这个理论的出发点是出于人为思想,如果能找到一个最大概率值的尺度就可以通过自组织的方法,针对随机分布的数据得到一个超越传统算法的最大概率值的解,由此产生了概率尺度自组织的算法。
传统算法的程序制作者对程序的开始,中间乃至结束的处理过程都是程序员事先设计出来的,是具有预知性的,而概率尺度自组织算法的一个显著特点就是程序员对处理的过程以及结果都具有不可预知性。
截止到这一理论的出现之前,一切与统计学有关的算法的处理结果都停留在这一算法的处理之前,反过来讲该算法处理之后的结果都可以让一切与统计学有关的算法的处理结果产生突破,而且这种算法出现之后目前被人们视为不可逾越的统计学的各种常数已经不是最佳的常数了。
同深度学习的算法相比,概率尺度自组织算法的自组织的目标清晰,效率极高,每一次迭代必有作用,计算复杂度为线性的,普通手机APP就可实现,极具应用前景。
由于这种算法在理论上的突破,计算复杂度低,使得它的出现一直显示出其特殊的应用效果,例如在文字识别OCR系统上,在计算机打印出的文档文件上,可在没有基准线的情况下,当文件在扫描仪上放偏时利用这个算法,仅通过文字的排列就可以很快的计算出文件的放偏的角度。
在人脸识别的应用中,例如在给定的一个图像中找到人脸的部位,传统的方法是先给出人脸的颜色数据,按照程序进行顺滕摸瓜的方法找到属于人脸颜色的所有像素,问题是同样一个人在不同的光线下拍摄出的图像的颜色差别很大,再有世界上有不同肤色,一种肤色所包含的具体颜色也是千差万别的,传统的定义一种颜色进行搜寻的算法肯定不能满足实际应用的需要,导入概率尺度自组织算法可以直接的仅通过若干次的自组织就可精确的找到人脸部位,因为不管是那种肤色,不管由于拍摄光线的不同所拍摄的图像的颜色失真,在整个图像中的人脸部位的颜色的分布密度值最大,也就是说人脸部位的肤色的概率值最大,通过概率尺度自组织的算法当然会很简单的解决这一难题,而且无需采用顺滕摸瓜的方法,在初始时可以通过图像的任何部位,在概率尺度自组织的过程中自动的移向人脸部位,并最终给出整个人脸部位的轮廓,这是在传统的模式识别的算法里不可想像的识别效果。这么一个胜似深度学习的算法仅仅通过手机终端就可在瞬时实现。严格讲概率尺度自组织理论应该属于机器学习理论。这个理论并不鲜为人知其原因是20多年来一直作为技术诀窍并没有公开,2014年才在美国,欧洲,日本以及中国申报了专利,目前已在美国和日本获得了专利权。
5.基于模糊事象概率的最佳组合理论**
组合理论是人工智能的基础理论,因此人工智能理论的突破必然依赖于组合理论的突破。
组合理论通过图论解决最佳组合问题最初是由美国佛罗里达州大学台湾籍刘教授发明的,80年代初我国留美访问学者王教授提出了利用“墒”的最佳组合理论,由于从理论上可以证明能够获得最佳的组合结果,因此引起世界学界的高度重视。然而,利用“墒”的最佳组合理论的问题点也是计算复杂度大,收敛慢致使应用受到局限。
如何高效率的实现最佳的组合结果,以及面对大规模集成电路需要实现面积最小,配线长最短,甚至还要考虑电气特性等多目的的组合,这是传统的组合理论所无法解决的难题,一个被称为90年代具有代表性的组合理论,就是模糊事象概率的最佳组合理论,这个理论把复杂的集成电路的各个模块之间的连接关系通过模糊事象概率的测度进行定量化,通过考虑各个单元间的连接关系越密切越要尽可能的排列在一起的模糊关系,同时还要考虑针对一个单元同各个单元有可能在这个单元附近排列的概率关系,将不明显的微小的概率信息,以及不明显的微小的模糊信息积分起来就可以得到稳定的,明显的以及有价值的信息,这就是模糊事象概率理论的突破点,因此可以高效率的,针对多目的的集成电路的优化需求,直接的计算出最佳化的组合结果。这个理论的基础是出于人为主观的对单元之间的连接关系的模糊值的定义,因此也是属于人工智能理论的范畴。
谷歌公司在英国投资6亿美金的创业公司,据说利用人工智能的深度学习算法搞出的下棋程序战胜了韩国棋手轰动了世界,当听到这一消息的时候,笔者马上就认为该程序的制作者一定是下棋高手,果不其然当日本NHK派遣的下棋高手的记者去英国采访程序的制作者后,证实了程序制作者在下棋方面是出类拔萃的,那么这也证明了这个程序恐怕不是利用的深度学习的算法,作为组合理论的研究者都会知道,属于40个以上的组合要素都属于图灵机不可解的NP问题,对于下棋问题当然是属于NP问题,但是,如果加入人为的经验,NP问题仍然可以解决,英国创业公司的程序制作者把下棋的经验做到了程序中去了,因此可以实现战胜棋手的效果并不稀奇。
1.三维立体移动目标识别
20多年前在我们的研究室里有一个三维移动物体识别课题组,当时从事这个研究的所有人都知道,三维移动物体识别技术是应用于军事方面。1991年海湾战争爆发后,曾经有这样的媒体曝光,美国的载有导弹的战机曾经对准一列民用火车发射导弹,但是很万幸没有击中火车。2003年第二次海湾战争中,媒体再一次报道出美国的载有导弹的战机对准一列民用火车发射导弹,准确的将这列火车击毁造成大量的伤亡,面对手无寸铁的乘客所坐的火车,接连两次的发射导弹如此残忍其目的何在?研究三维移动物体识别的研究者深知,美国是在展示其三维移动物体识别的技术,因为使用GPS定位技术只能对固定目标进行跟踪,对于移动目标必须依靠三维移动物体识别技术。
在1991年的第一次海湾战争中使用的三维移动物体识别技术是通过将三维物体的三个方向上的图像轮廓的特征向量值进行登录,在识别三维移动物体时,把摄取到的三维物体的任何角度的图像的轮廓的特征向量值与登录的特征向量值进行比对,求出近似值,这种算法在正常情况下会得到比较好的识别结果,但是,在正式的战争环境下,周围炮火浓浓,硝烟弥漫,所摄取的移动物体的图像干扰很大,尤其是通过轮廓识别图像本身违背了信息学的原理,用一维的方法识别二维图像,由于信息量不够,如果图像的轮廓部分有一点干扰,就会出现截然不同的识别结果。因此,在第一次海湾战争中美国试验打击移动目标的结果没有达到预期的效果是可以理解的。
在2003年的第二次海湾战争中,在移动物体识别技术中导入了人工智能算法,可针对由于恶劣的环境造成图像的严重干扰的情况下,可以非常准确的打击移动目标。
当前通过无人驾驶飞机对地形地貌的测绘,自动搜索遇难人员等都需要具有人工智能的三维移动物体的识别产品,这样的高端技术产业具有很高的商业价值。
2.自动股票交易基金对冲以及金融预测**
在社会上最具有价值的技术是预测技术,因为正确的预测股市将可获得巨额财富,然而事与愿违正确预估股市结果的算法却并不能满足人们的需要,因此,在预测方法上哪怕有一点技术进步都将是非常重要的,美国的一些号称军事机密的预测算法,在公开后我们会感到这些算法即使在当时并没有想象之中的那种高水平的技术进步。
但是进入人工智能的时代,预测技术将展现突出的颠覆性的效果,首先在最佳预测的概念上显示其进步性,以往人们渴望着得到一个最佳的预测值,然而,根据数学上的最佳化的理论,最佳化解一定是建立在给出的某一边界条件上的最佳化。人工智能的最佳化预测值就是建立在预测者对社会诸因素的了解,对预测目标的认识程度,以及个人的智力情况等等诸因素以及诸条件的影响为边界条件所得到的最佳化值,而且这个最佳化的值一定是超越人的本身所能得到的解,这将把预测理论推向了最高阶段。
首先人工智能所以能在最佳化预测上具有突破性,其一是运用了概率自组织理论,颠覆了传统的统计学的预测。其二是运用了模糊数学的空间映射理论,可以把预测者对社会诸因素与预测对象的关系的认识通过Membership函数定式沟建成社会模型,可以把有关对预测产生效果的社会学,哲学,历史学甚至易学中所提炼出的经验在人工智能的最佳化预测系统中都可以定式,都可以起到对最佳化预测的作用。其三是可以建立社会性的专家系统,针对预测对象建立大型的社会性的大专家库。其四是利用传统的相关分析,回归分析等算法。一句话在人工智能的最佳化预测系统中是将所有与预测有关的算法,知识以及信息全部利用起来。
人工智能最佳化系统不是将这些算法分离的进行计算,而是构建成一个最佳化决策平台,各种不同的算法的计算结果是融合在一起的,相互验证,信息彼此共享,并通过机器学习算法最终进行自组织运算,去伪存真从而获得超越统计学的计算结果,从而得出最大概率的预测值。导入了人工智能的决策平台,将上述所有可以对预测起作用的因素通过新型的超深度学习的算法进行如同人的神经系统那样对各种数据进行整合,以及如同人的大脑那样对预测结果的判断,对已经发生的数据同该系统的各个算法所得出的结果进行自动评价,自动的修正系统的各种参数,平衡各种因素的影响的实际效果,实现自动的知识更新以及知识积累。这些都是在自动的基础上瞬间实现的,在这个平台上预测结果包括股票交易,基金对冲都是自动的进行。从另一方面,作为系统尚需人为处理的功能,运行时可以不断的根据操作者对预测因素的认识的提高,人为的修正各种因素的数值,或增加信息,增加预测要素,或重新调整预测战略的框架等使预测水平不断提高。这样的系统所能正确预测是来源于人的头脑的智慧,但是在高速处理果断决策上是人类望尘莫及的,这样的系统一定会在自动股票交易基金对冲以及金融预测上发挥不可估量的作用。
3.汽车自动驾驶
导入人工智能理论的汽车自动驾驶系统是当前产业界最为关注的应用课题。在这个应用领域中其一是导入人工智能的机器学习理论的模式识别系统,可以在线的将路况信息自动的识别出,供自动驾驶系统作为汽车运行的依据,其二是导入人工智能的汽车自动运行系统,汽车自动驾驶为什么需要人工智能,可以刹车控制为例,首先汽车不可能以一个速度运行,当需要停止在某位置上时有好多情况,熟练的驾驶员有时会不睬刹车直接停在需要的位置,有时会轻轻地踩一下刹车,也可能会使劲踩一下刹车等等,会有很多的情况,这样的控制问题是目前所有的传统自动控制理论不可解决的,导入人工智能的模糊推论技术就可以把熟练的驾驶员的经验通过Membership函数定式,再按照模糊推论的算法实现同熟练驾驶员接近的自动驾驶控制。
这里举出的仅仅是刹车控制,在实际道路上的自动驾驶还有更复杂的控制问题,因此导入人工智能算法势在必行。
4.ITC图像变换代码**
随着代码技术的进化,当今已发展到无需事先设计出代码符号,构成代码图形以求得到稳定的识别结果。在人工智能的算法下,依据自然的纸纹,声纹,自然的图像甚至生体信息都可以直接变换成代码。
近年社会上流行的AR技术,可以通过手机拍照某一个印刷图像,就可以上网连接某一网站。由于这种技术可以从网络上下载开源程序,所以迅速普及。但是AR技术是通过图像识别的算法,识别结果是一个占用十几兆内存的文件,不利于网络操作,以及大量的图像的应用。
从另一个角度,谷歌眼镜,图像检索都需要通过拍摄一个图像就可直接上网,或进行网络检索。一个ITC(Image To Code)技术应运而生,运用空间映射的算法可以把图像的某些特征构造成图像的特征向量,再通过概率尺度自组织的算法组织成一个1036的代码。实现了将任何一个图像经过移动终端的拍摄就可成为一个代码,也就是说可以把任何图像直接作为二维码使用,这一成果可以让任何商品标识在无需任何处理的情况下成为一个二维码,可以使世界上的所有产品,在一夜之中都可以连接到网上去,不破坏商品标识的美观。可以实现谷歌眼镜看到任何图像都可以连接网络的设想,可以实现通过手机拍照任何商品图像就可直接在网上检索该商品,促进网络销售的发展,再有对于目前的VR产品的发展将起到重要作用等等。与传统的AR相比具有代码容量在10万分之一,便于手机终端识别,占用服务器容量小,检索速度快的特点,适于国际性的大范围,大容量的应用。
人工智能不仅具有以上的应用亮点,在各行各业都将发挥其重要的应用前景,在此不一一列举了。
1.大规则库的社会性的专家系统的构筑*
同20多年前单机的专家系统相比,如今可以发展到由大型服务器支撑的大规则库的社会性的专家系统。特别是在医疗诊断领域的应用中可以把全社会的在各个专科诊断上的规则实现统一管理,资源共享的社会性的专家系统,针对这样系统的构建规则信息的自动归纳,特别是针对各种病例的规则自动生成,自动诊断的优化问题,规则库的规则抽取的优化问题,规则有效性的自动诊断过滤问题等等。
2.机器学习理论的突破性算法的创出**
概率尺度自组织的算法使传统的统计学的基本常数产生了颠覆性的突破,与基本常数密切相关的相关分析,回归分析等都将产生突破,新的统计学的算法将会产生。以此将形成在人工智能理论下的新的统计学相关的理论。
机器学习中的尺度问题是研究的重点,概率尺度自组织的算法所以能够产生突破性的结果就是因为引进了概率尺度,以及自组织的计算方法。总结目前所有传统的有关尺度的定义好像没有比概率尺度更加有效的了,但是,概率尺度自组织的算法是否就此不可发展了呢?回答是否定的,上述解决最佳化组合理论的模糊事象概率实际上是个测度,测度的尺度相信可以产生新的突破,因为测度尺度不仅保函概率信息,同时还保函模糊信息,而且测度是将作用不明显的微小的概率信息与微小的模糊信息进行积分从而获得了比较稳定的测度,用测度作为自组织的尺度这将是当今最高水平的机器学习算法,这也是人们预测到的人工智能的基础理论是组合理论,既然如上所述的测度可以解决组合理论中的最佳化问题,就足可证明测度尺度自组织算法是机器学习的最为理想的算法。这也是概率理论,模糊理论与自组织理论在信息学领域中走到了终极阶段,这意味着在信息领域中将产生重要的突破,人工智能也由仅仅是利用规则缺乏基础理论的支持而一直停留在初期阶段,走向以基础理论为支持的高级阶段。
3.深度学习理论的突破**
深度学习最先由Facebook最早炒起来的,之后谷歌又介入,如今成为人工智能的热点话题。
然而,作为深度学习就是基于神经网络的理论,20多年中神经网络技术由被人追崇到被人们遗忘其主要原因就是加权值W,与阀值T在学习的过程中,如果希望得出一个最佳的解,所要组合的总次数是{(W*T)^n}*P,这里n为一层的节点数,P为层数,如此高指数的计算复杂度是一个无法直接得到最佳解的模型。另外,神经网络的模型同人的大脑的神经网络的机理相差甚大,脑神经的刺激信号的原理不能在传统的神经网络模型中,仅仅通过初等数学的加权以及人为所设定阀值充分体现,人的头脑通过神经脉冲的刺激的数量的多少决定头脑兴奋程度的机理,在目前的神经网络的模型中也不能体现,再有输入数据往往是随机的,神经网络模型并没有考虑针对随机变量的处理等等,目前的神经网络模型只能是学术上的,代表一种方向性的理论,同达到实际应用的程度差距甚大。如今进入深度学习的阶段,同传统的神经网络相比只增加了隐藏层的数量,这更加使计算的复杂度加大,传统神经网络的致命问题得不到解决,广泛应用的前景何在不言而喻了。
这里提出一个革命性的“超深度学习”的神经网络的构造。把上述可以快速的进行机器学习的概率尺度自组织算法,作为神经网络输入层与隐藏层各个节点之间的连接关系,这样就解决了传统神经网络在做学习时的计算量大无法获得最佳解的问题,同时用机器学习所得到的最大概率尺度作为激发神经网络产生神经脉冲的阀值,可获得非常接近神经元的效果,因此可以把隐藏层作为神经层,在输出层上,由于神经层输出的是脉冲,输出层可根据输入脉冲的个数的多少决定被识别的图像是否为已经学习过的图像,这又很接近大脑根据神经元输出的神经信号的多少所能够让大脑产生兴奋的程度来判断是否是已经学习过的图像,因此可把输出层定义成头脑层。非常有意思的是在这种神经网络出现判断失误时,头脑层还可以进行自学习,让今后不会出现失误的现象。
“超深度学习”的神经元结构只需要三层,输入层,神经层以及头脑层,计算复杂度只有O^2,所以普通的智能手机都可以搭载这种算法,而且还适用于解决具有随机分布的复杂系的问题,将传统的深度学习进行了彻底的颠覆。可直接应用于对图像的识别,声音识别,或金融或股票等的最佳化预测,并且必然可以产生特殊的应用效果。
总之,人工智能是推动第四次产业革命的基础理论,可以使传统的算法产生颠覆性的突破,可推动产业产生巨大的发展,希望年轻的科技人员担负起时代的重任奋起投入这一领域,一个崭新的人工智能时代已经到来!
注:上述标有“*”的题目的相关内容为作者参照已有理论提出的发明或提出的观点,标有“**”题目的相关内容为作者独自的发明或提出的独自的观点,无标注的题目的相关内容为已发表的公知的内容。
顾 泽苍
Zecang Gu
株式会社阿波罗日本
最高技术责任者
工学博士
日本电子信息通讯学会(IEICE)正会员
日本图像电子学会(IIEEJ)正会员
南开大学特聘教授
E-mail:gu@apollo-japan.ne.jp
学历研究历
1980年到1983年天津大学精密仪器系研究生
1983年开始在天津激光技术研究所从事激光检测方面的研究。
1991到1993年在日本大阪府立大学研究院信息学专攻从事组合理论的研究,在国际上首创运用模糊事象概率的理论解决组合数学的最优化问题,受到美国牛顿研究中心,印度等大学的关注,获工学博士学位。
1994到1999年从事模式识别与彩色合成的研究,在国际上创建“概率尺度自组织”的机器学习理论,解决最佳模式识别以及彩色合成的优化问题。
1980年到1999年在国际一级学刊上共发表论文8篇。
2000年至今从事印刷图像信息隐藏,以及机器学习方面的研究。在国际上提出了“网屏编码理论”,以及“图像直接变换代码的ITC理论”等受到日本,美国以及欧洲有关大学的高度关注,截至2015年底共申请了113项专利,有51项专利已获专利权。