百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

使用 ImageMagick 和 pytesseract 进行 OCR - 综合指南

haoteby 2025-01-12 15:12 1 浏览

ImageMagick 是一个开源软件套件,可用于创建、编辑和转换位图图像。它可用于处理各种图像格式,包括 PNG、JPEG、BMP 和 GIF。除了图像处理之外,ImageMagick 还包括用于创建动画、在文件格式之间转换和生成缩略图的实用程序。ImageMagick 最强大的功能之一是它能够对图像执行光学字符识别 (OCR),这使我们能够从图像和扫描文档中提取文本。在本文中,我们将讨论如何使用 ImageMagick 和 pytesseract 对图像文件和扫描的 PDF 进行 OCR。

安装 ImageMagick

在我们使用 ImageMagick 之前,我们需要在我们的系统上安装它。ImageMagick 适用于 Windows、macOS 和 Linux。要在 Linux 上安装 ImageMagick,我们可以使用我们发行版的包管理器。例如,在 Ubuntu 上,我们可以运行以下命令来安装 ImageMagick:

sudo apt-get install imagemagick

在 Windows 和 macOS 上,我们可以从 ImageMagick 网站下载安装程序并运行它来安装 ImageMagick。

安装 pytesseract

Pytesseract 是 Google 的 Tesseract OCR 引擎的 Python 包装器。要使用 pytesseract,我们需要安装 Tesseract OCR 及其语言数据文件。在 Linux 上,我们可以使用我们发行版的包管理器安装 Tesseract OCR。例如,在 Ubuntu 上,我们可以运行以下命令来安装 Tesseract OCR:

sudo apt-get install tesseract-ocr

在 Windows 和 macOS 上,我们可以从 Tesseract OCR 网站下载安装程序并运行它来安装 Tesseract OCR。

安装 Tesseract OCR 后,我们可以使用 pip 安装 pytesseract:

pip install pytesseract

使用 ImageMagick 和 pytesseract 进行 OCR

要使用 ImageMagick 和 pytesseract 对图像文件执行 OCR,我们可以使用以下步骤:

使用 ImageMagick 的“convert”实用程序将图像文件转换为灰度图像

convert input.jpg -colorspace gray output.jpg

使用 ImageMagick 的“normalize”实用程序增强灰度图像的对比度

convert output.jpg -normalize output.jpg

使用pytesseract对增强后的灰度图进行OCR

import pytesseract
from PIL import Image

text = pytesseract.image_to_string(Image.open('output.jpg'))
print(text)

上面的代码将打印从图像文件中提取的文本。

对扫描的 PDF 执行 OCR

要对扫描的 PDF 进行 OCR,我们可以使用 ImageMagick 将 PDF 转换为单独的图像文件,然后使用 pytesseract 对每个图像文件进行 OCR。这是一个例子:

import pytesseract
from pdf2image import convert_from_path

pages = convert_from_path('document.pdf', 300)
for i, page in enumerate(pages):
    page.save(f'page_{i+1}.jpg', 'JPEG')
    text = pytesseract.image_to_string(page)
    print(f'Page {i+1}: {text}')

在上面的代码中,我们使用了“pdf2image”库将 PDF 的每一页转换为 JPEG 图像文件。然后我们使用 pytesseract 对每个图像文件执行 OCR 并打印提取的文本。

结论

ImageMagick 是一个强大的工具,可用于图像处理和 OCR。当与 pytesseract 结合使用时,ImageMagick 可用于对图像文件和扫描的 PDF 执行 OCR,使其成为数据提取和分析的宝贵工具。

相关推荐

用户界面干货盘点

为了解决大家找资源难的问题,EVGET特别开辟每周盘点用户界面干货的专栏,一网打尽热门的界面资讯、Demo示例、版本升级及下载、移动Web开发,以及各种UI神器推荐。更多资源及工具也可以在用户界面专题...

不仅仅是创意,26款科技小玩意

新科技不断在卖场出现,总是吸引着消费者的眼球。许多很棒的科技小玩意儿被发明,手机、平板、手提电脑、游戏主机、甚至是3D打印都适用。现在的初创公司已经发正在让21世纪打破各种科技壁垒障碍。本文收集26...

FastReport.Net报表设计器如何连接到SQLCe

MicrosoftSQLServerCompactEdition是一个简单的本地关系数据库,不需要安装,并且已与数据库文件建立连接。您不需要管理员权限即可使用基础功能。您也只能“密码”基础功能...

2015年最值得关注的8款用户界面新品

软件界面开发解决方案这一块一直以来是慧都控件(EVGET)的强项,我们有400多款用户界面产品,250多款图表报表产品,此外还提供专业的软件界面定制开发服务,其中DevExpress定制开发、甘特图定...

小贴士:安装TBarCode office的注意事项和相关资源

TBarCodeoffice是一款适用于MicrosoftWord2007、2010等版本,具有强大功能的条码插件。在这里我们介绍一下安装TBarCodeoffice的注意事项和相关资源。安装...

初学者不容错过的修复Bug小技巧

Bug的发生,我想这是每个开发人员几乎每天都要面对的问题,包括历史上非常有名的编程人员,他们依旧要面对Bug。成为一个熟练的程序员并不意味着永远不会犯错误,而是擅于发现错误并能很好地修正错误。当你刚开...

【推荐】一款基于 .NET 开源的支持多厂区、多项目级的MOM/MES系统

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍tmom是一款基于.NET开源、通用的生产制造系统,支持多厂区/多项目级的MOM/MES系统,计划排程...

你不可不知的10个Github功能

Github让全世界的开发人员、设计人员可以在一起工作交流。Github不仅提供大量开源项目、编程语言代码,他也发布过Windows和OSX桌面应用,可以让我们在工作中无缝集成Github。...

Fastreport.Net用户手册(十四):文本编辑

编辑对象的文本,只需双击文本内容,然后会弹出一个文本编辑器。在编辑器右方有一个可以添加至文本中的数据树组件。可以通过鼠标拖拽该组件到需要的地方。在文本中嵌入该组件的另一个方法是双击该组件,然后该组件将...

火狐浏览器开发者专版上手体验

当Mozilla宣布FirefoxDeveloperEdition,我想不少开发者都很高兴,因为第一个大型开发者专用浏览器诞生了。既然是开发者专用版,那么和普通版本肯定是不一样的。早已经迫不及待...

FastReport.Net 2015.3.3 优化了报表解析器

FastReport.Net2015.3.3于近日正式发布。点击FastReport.Net2015.3.3下载试用FastReport.Net最新版本。[Core][Exports]重写保存在...

改变上网体验:10个超赞的Google Chrome扩展

你使用谷歌浏览器浏览网页吗?其实,全世界数以百万的用户都喜欢使用GoogleChrome浏览网页,这也促使其成为全球使用量第二大的Web浏览器。GoogleChrome浏览器具有快速、干净的页面,...

如何在 FastReport Online Designer 中处理报表的 5 个函数

FastReports产品的时代并没有停滞不前。每个月都会添加新的函数和对象,并改进和优化当前的代码。FastReportOnlineDesigner...

Winform应用界面开发技术特点图解

整理一下自己之前的Winform开发要点,以图文的方式展示一些关键性的技术特点,总结一下。...

跨平台的可视化Web报表设计器-FastReport Online Designer

好消息!FastReportOnlineDesigner现在作为一个独立的应用程序发布啦!此前作为FastReport.Net的专业版的一部分的在线设计测试版,现在可以单独或作为FastRepor...