开源OCR文字识别软件Calamari

Calamari是一种新的开源OCR识别软件,它使用了最先进的Tensorflow实现的深度神经网络(DNN)。 提供了预训练模型和多模型投票技术。由卷积神经网络(CNNS)和长短时记忆(LSTM)层构成的可定制网络架构通过Graves等人的连接时间分类(CTC)算法进行训练。而GPU的使用大大减少了训练和预测的计算时间。我们使用两个不同的数据集来比较Calamari与OCRopy,OCRopus3和Tesseract 4的性能.Calamari在用现代英语写的UW3数据集上达到0.11%的字符错误率(CER),在用德语写的DTA19数据集上达到0.18% 错误率,其性能远远优于以上现有开源软件的结果。
使用了目前OCR最先进的的技术,CNN+LSTM+CTC+voting。
calamari OCR引擎,使用Python3编写,基于OCRopy和Kraken构建,它的设计使你既可以方便的使用命令行运行,也可以把它模块化嵌入到其他python脚本中。

在UW3和DTA19上的识别结果错误率,与OCRopy、Tesseract4、OCropus3相比较:

与其他软件相比的识别速度,有GPU加持当然很快:

值得注意的事,该库主要是用来识别印刷体古籍文字,在自然场景图像上的识别并没有实验说明。

文中识别所用的数据库图片示例:

ps.单词“calamari”的意思是鱿鱼。

(0)

相关推荐

  • 一键提取图片文字,还能当翻译的软件!

    PandaOCR v2.7最新版是一款专注于OCR 文字识别的免费软件,支持多功能 OCR 识别.即时翻译和朗读等.软件的功能非常的多并且强大,能够进行截图内容识别,剪切OCR识别还有各种图片内容识别 ...

  • Win10/11专属软件,大佬修改版,免费、无需联网!

    今天要给大家讲一个非常经典的电脑软件,说起PC端的网页和图片文字识别软件,可能很多人第一反应都是它--天若OCR.不过之前由于一些原因,比如需要自己找接口,需要联网等等,有一段时间不是那么好用了.但今 ...

  • 太NB了,无需破解,永久免费!

    别样趣味,潮玩黑科技.有你在,我不慌! 哈喽,大家好呀~ 如果大家喜欢的话,记得给我们标上星标呀~~ 目前市面上很多OCR软件都是收费的,对于钱包瘪瘪的我们,实属难受啊. 不过,为了方面大家,改变目前 ...

  • 趁开发者还不收费,这个速度白嫖

    之前给大家分享过一些自带OCR识别的截图工具,还有一些专业的OCR识别软件,虽然这些软件的使用效果都很不错,不过都得安装在电脑上,对于不经常使用的人来说,着实有些"鸡肋". 看到这 ...

  • 什么OCR文字识别软件支持识别表格

    截图文字识别在平面排版中经常用到,许多OCR软件无法识别表格截图,作为专业的OCR文字识别软件,ABBYY FineReader有着强大的OCR文字识别功能,不但可以将文件转换为文本文档或Word文档 ...

  • OCRKit Pro for mac - 专业的ocr文字识别工具

    OCRKit pro Mac是一个简单而精简的Mac应用程序,它具有先进的光学字符识别技术,允许您将扫描或打印文档转换为可搜索和可编辑的文本.这对于通过电子邮件接收或由DTP应用程序创建的PDF文档特 ...

  • 很多人都在用的ocr文字识别方法,你不可不知道

    昨天小白的上司给小白下达了一个任务,让我将我们公司宣传栏上的内容给提取出来,整理成一个文档将其发送给他.啊,这,我想大家也应该都有和小白一样的疑惑吧,为什么突然让我们将宣传栏上的内容给提取出来呢?不过 ...

  • 这款良心好用的图片文字识别软件,免费又给力!

    在日常学习和工作过程中,我们会有将PDF和图片中的文字用于复制.编辑和翻译等场景.对文字少的内容手打输出文字还可以考虑,但是对文字较多的内容让人望而止步. OCR(Optical Character ...

  • 捷径|OCR文字识别,一键识别图片转化为文字!

    △截图来自全能扫描王 今天给大家分享OCR文字识别捷径,能快速精准识别图片中的文字,支持一键复制或保存! *此捷径原作者@科技兽,发表于快捷指令网站 https://www.rcuts.com/404 ...

  • 图片转文字,文字识别软件哪个好?网页文字无法复制可以用这招

    不管在手机上,还是在电脑上,我们经常会需要引用一些网页文字内容,但是当我们想要复制时,却发现无法操作,这时候该怎么解决呢? 手机上网页文字不能复制怎么办? 如果是在手机上无法复制网页文字,我们可以使用 ...

  • 文字识别软件哪个好?批量识别图片文字用清描就够了

    日常工作和学习中,大部分用户都是通过手动记录图片上的文字,对于少量的内容,我们只需要花费较少的时间就可以完成.但是碰到数十张甚至更多图片,打字速度又没有很快的时候,提取这些图片的内容就会非常的枯燥和费 ...

  • “极简小技术 ,创新轻应用 ”系列微课 ( 第十八期 ) |天若OCR——文字识别快又准

    简介 在平时的工作生活中,我们经常会遇到网上搜索到的内容总也复制不下来,或者对方发过来的文字内容是一张图片,需要自己逐字敲打出来的情况,这既浪费时间,也容易出错.文字识别已成为大家日常学习办公过程中经 ...

  • Text Scanner for Mac(ocr文字识别工具)v1.4.4免激活版

    Text Scanner Mac版是一款功能强大的图片扫描文字识别工具, 基于AI领先的深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转换为可编辑文本. text scanner功能介绍 ...