一图读懂医疗领域的OCR应用
近日,动脉网邀请专注于机器视觉在移动医疗应用的创业团队拍医拍联合创始人杨琼博士带来一场以OCR技术在医疗领域应用的培训讲座。
2016年伊始,拍医拍宣布完成三千万元A轮融资,其创始人、CEO吴诗展介绍说,拍医拍是一个强技术背景团队,本轮融资后,拍医拍将会全面开放其技术核心,向To B方向扩展三大业务,分别为:全面开放医疗单据拍照识别技术,构建拍照识别云平台;为医疗、医药相关机构输出技术能力,提供互联网+技术服务;技术VC,做移动医疗初创公司的技术合伙人,帮助传统医药背景创业者解决“有想法,没技术”的难题,完成从0到1的产品设计开发过程,在短时间内为初创公司做出优质APP。
其新一轮融资的完成也代表着OCR技术在医疗领域的应用得到认可。动脉网借此契机,试图根据杨琼博士的讲座内容,梳理出医疗领域的OCR应用路径。
附文字版本:
解放双手 OCR如何一键解决数据的录入、存储与分析
面对纷繁复杂的纸质医疗单据,如何能够轻松的将这些单据上的内容电子化存储并进行分析,一直是困扰着诸多的互联网医疗创业者。OCR技术在医疗领域的应用,刚好提供了一个解决方案。
医疗领域,OCR技术最常见的应用是化验单的识别。专注于机器视觉在移动医疗应用的创业团队拍医拍就在这方面发挥了重要的作用。其联合创始人杨琼博士表示,由于医疗本身的严谨性以及一些其他方面的原因,将OCR技术应用于化验单的识别当中显得并不是那么容易。
(杨琼博士曾先后任职于微软亚洲研究院、欧洲微电子中心、百度深度学习研究院。清华大学博士,是文字识别、人脸识别、深度学习、人工智能、大数据分析等领域的资深专家,拥有11项世界或美国专利。曾在PAMI、IJCV、CVPR、ICCV、IJCAI、ACM MM等国际顶级杂志与会议中发表四十余篇论文,其中多篇文章获得最佳论文或最佳论文提名奖,并在FAT2004、Middlebury等多个国际评测中获得最佳性能奖。她是百度OCR和人工智能领域的重要负责人和推动者,是百度最早推动深度学习进行文字识别、图片分类以及大数据分析的重要人物之一。)
首先,医院是产生化验单最主要的机构。由于各医院使用的单据格式、版面并没有统一,使得化验单的界面很复杂,毫无标准可言,这对于机器识别会造成很大的难题。
其次,拍照识别化验单不仅是一个文字识别的问题,更是一个语义理解的问题。杨琼博士表示,不同名词可能代表的含义是相同的,而同一个名词在不同的检验项目中所代表的意义则不一样。比如在血常规和尿常规检验中都会出现白细胞这一项,但是二者对白细胞的正常值范围要求以及医学解读都是完全不同的。
再者,由于化验单是纸质的,在保存的过程中很容易造成折损,发生形变。这种形变也会为其识别带来困难。相比较而言,质地较硬的银行卡较易识别。
第四,化验单上有很多种字符,包括英文、中文、数字、特殊符号等。多种类型字符混排场景下的文字识别本身就是一个世界难题。
面对如此多的技术难题,为何还是要利用OCR技术进行化验单拍照识别?杨琼博士表示有两方面的原因。
一方面,用户对这方面的需求很大。从C端来讲,患者自己不会解读化验单,医生没时间帮他们解读化验单,拍照识别化验单可以帮助患者解决读不懂化验单的问题。从B端来讲,许多医疗领域的公司需要大量的检验数据,而手动输入费时费力,拍照识别为其节约了大量的人力和时间成本。
另一方面,虽然化验单的版面复杂,种类繁多,但仍旧是有规律可循的。比如说血常规、尿常规等项目都是有具体的检验内容,有结果,也有参考值,可以供识别时使用。当然,这里需要对问题深入钻研和理解,才有可能真正地将技术达到实用的水平。
与传统OCR公司的模板式做法不同,为了更好的完成化验单的识别和解析,拍医拍研究了一套自己的核心技术和识别流程,从而大大扩展了对各种类型、各种版面的支持范围。
定位区域:拍出一张清晰的化验单照片后,拍医拍的机器识别技术会先清晰找到化验单的边框,将化验单的大致位置定位出来。
粗分类:随后,将化验单上的信息区域做一个粗分类,划分其检验项目类、患者信息区域类、医院信息区域类等,其中检验项目类是最为重要的,也是内容最为丰富的。
解析数据+医学库匹配:划分出区域后,便开始对检验数据信息区域的内容进行智能解析与理解,并与医学库的内容进行匹配。
全局调整优化:数据解析过后,拍医拍会将解析的结果进行整体优化,重新调整,对其中可能识别错误的地方进行修正。
为保证数据识别的准确性,拍医拍在用户拍照时便会提示其选择合适的距离、角度和光线进行拍摄,其次,拍医拍后台的人工智能学习机器具备自适应、自学习的能力,使之不断地完善。
此外,拍医拍的数据处理全部在其自身的SAAS平台上完成,用户无需大型的数据存储和运算平台即可获得想要的结果。
年度最给力医生品牌加速计划↓↓↓
▲活动最新消息,医界、妈咪知道、泰康在线、血糖高管、健康社加入协办方阵营,目前活动协办方达54家,且在陆续接入中……