使用 ImageMagick 和 pytesseract 进行 OCR - 综合指南
haoteby 2025-01-12 15:12 13 浏览
ImageMagick 是一个开源软件套件,可用于创建、编辑和转换位图图像。它可用于处理各种图像格式,包括 PNG、JPEG、BMP 和 GIF。除了图像处理之外,ImageMagick 还包括用于创建动画、在文件格式之间转换和生成缩略图的实用程序。ImageMagick 最强大的功能之一是它能够对图像执行光学字符识别 (OCR),这使我们能够从图像和扫描文档中提取文本。在本文中,我们将讨论如何使用 ImageMagick 和 pytesseract 对图像文件和扫描的 PDF 进行 OCR。
安装 ImageMagick
在我们使用 ImageMagick 之前,我们需要在我们的系统上安装它。ImageMagick 适用于 Windows、macOS 和 Linux。要在 Linux 上安装 ImageMagick,我们可以使用我们发行版的包管理器。例如,在 Ubuntu 上,我们可以运行以下命令来安装 ImageMagick:
sudo apt-get install imagemagick
在 Windows 和 macOS 上,我们可以从 ImageMagick 网站下载安装程序并运行它来安装 ImageMagick。
安装 pytesseract
Pytesseract 是 Google 的 Tesseract OCR 引擎的 Python 包装器。要使用 pytesseract,我们需要安装 Tesseract OCR 及其语言数据文件。在 Linux 上,我们可以使用我们发行版的包管理器安装 Tesseract OCR。例如,在 Ubuntu 上,我们可以运行以下命令来安装 Tesseract OCR:
sudo apt-get install tesseract-ocr
在 Windows 和 macOS 上,我们可以从 Tesseract OCR 网站下载安装程序并运行它来安装 Tesseract OCR。
安装 Tesseract OCR 后,我们可以使用 pip 安装 pytesseract:
pip install pytesseract
使用 ImageMagick 和 pytesseract 进行 OCR
要使用 ImageMagick 和 pytesseract 对图像文件执行 OCR,我们可以使用以下步骤:
使用 ImageMagick 的“convert”实用程序将图像文件转换为灰度图像
convert input.jpg -colorspace gray output.jpg
使用 ImageMagick 的“normalize”实用程序增强灰度图像的对比度
convert output.jpg -normalize output.jpg
使用pytesseract对增强后的灰度图进行OCR
import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open('output.jpg'))
print(text)
上面的代码将打印从图像文件中提取的文本。
对扫描的 PDF 执行 OCR
要对扫描的 PDF 进行 OCR,我们可以使用 ImageMagick 将 PDF 转换为单独的图像文件,然后使用 pytesseract 对每个图像文件进行 OCR。这是一个例子:
import pytesseract
from pdf2image import convert_from_path
pages = convert_from_path('document.pdf', 300)
for i, page in enumerate(pages):
page.save(f'page_{i+1}.jpg', 'JPEG')
text = pytesseract.image_to_string(page)
print(f'Page {i+1}: {text}')
在上面的代码中,我们使用了“pdf2image”库将 PDF 的每一页转换为 JPEG 图像文件。然后我们使用 pytesseract 对每个图像文件执行 OCR 并打印提取的文本。
结论
ImageMagick 是一个强大的工具,可用于图像处理和 OCR。当与 pytesseract 结合使用时,ImageMagick 可用于对图像文件和扫描的 PDF 执行 OCR,使其成为数据提取和分析的宝贵工具。
相关推荐
- 能跑源码,还提供数据集:这里有一个入门企业级验证码识别项目
-
机器之心专栏作者:kerlomz网上关于验证码识别的开源项目众多,但大多是学术型文章或者仅仅是一个测试demo,那么企业级的验证码识别究竟是怎样的呢?1.前言网上关于验证么识别的开源项目众多,但大...
- kdj源码_kdj源码公式描述
-
N:=9;M1:=3;M2:=3;...
- QT实现抖动文字和滚动文字,附源码
-
前言不知道大家有没有发现今天的文章有什么不一样,哈哈,我自己胡拼乱凑弄了一个logo,好不好看就先不说了,最起码萌萌哒...当然这不是今天的重点,在做logo的时候,我原本想让文字动起来的,奈何技术有...
- 我试图通过这篇文章告诉你,这行源码有多牛逼。
-
你好呀,我是歪歪。这次给你盘一个特别有意思的源码,正如我标题说的那样:看懂这行源码之后,我不禁鼓起掌来,直呼祖师爷牛逼。...
- 想了解Python源代码加密吗?现总结如下5大加密混淆手段!
-
我们在进行...
- Android系统基础(03) Android系统源码下载
-
常规官方网站说明:Android源码官方网站为(google你懂的):https://source.android.com官网参考链接,对应的tag(tag是一种标签,我们可以根据tag来判断下载的...
- 真香,Python爬取B站弹幕原来如此简单,源码已附在文末
-
B站的弹幕区一直是人才圣地。今天我就用python来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。...
- 最详细的 maven 教程,可以收藏_maven步骤
-
链接|cnblogs.com/hzg110/p/6936101.html正文目前所有的项目都在使用maven,可是一直没有时间去整理学习,这两天正好有时间,好好的整理一下。...
- Python黑科技-VIP视频破解源码分享
-
《利用Python制作自己的VIP视频解析软件》想看的电视剧更新了还要充VIP?喜欢的电影你是VIP还得付费?学了Python哪要这些花里胡哨的,打开我自己的VIP付费视频解析软件,想怎么看就怎么看!...
- 抖音无水印解析网站源码_抖音无水印解析平台
-
链接:https://share.weiyun.com/59Ah44S密码:hv4dm7上传到主机解压不用安装,直接打开域名就可以了原文地址:https://www.xigsc.com/post/...
- 「电脑知识」USBOS 3.0 v2022.1.24 超级PE启动维护工具标准增强版
-
前几天一直在发PE类工具就是为了制作U盘PE启动重装系统教程的,今天小编继续分享有一篇关于pe的之前小编发布过一款微PE工具箱,今天发布另外一个无任何流氓行为功能超级强大虽然体积大了一点,但是这个...
- 模版网站建设制作的八步流程_模板的网站
-
模版网站比较简单,一般我们按照如下流程就可以制作出来。 一、网站定位: 在建站之前,一定要了解你要建的网站是什么。你必须考虑你网站的标题(关键词)、网站描述以及你想要建立的网站。 二、选择域...
- 求职季必备,这几个免费的个人简历模板网站,你可千万不要错过!
-
晃晃悠悠又到了春招的季节,相信一定有很多小伙伴趁着这个金三银四求职季,四处投递简历。这时候一个亮眼优秀的简历,可以很好的祝你吸引HR的注意。今天就把我珍藏很久的5个免费简历模板网站分享给大家,简历模板...
- 简约时尚作品博客商店网站HTML5模板源码
-
Meduza是简约时尚和现代的博客HTML模板,带商店电商元素的博客页面。考虑所有的作品集网站需求页可以设计一个旅游网站。原生响应设计HTML5和CSS3(台式机、平板电脑、手机…)简单,干净的和专业...
- 13 款免费样机网站合集,UI设计、产品设计、VI设计全都有!
-
俗话说得好,人靠衣装,在作完设计后不少设计师都会为自己的作品套一个「样机」好让设计看过去更加高端大气上档次!今天,我就总结了无论是UI设计、包装设计、服装设计、品牌设计、logo设计,都能用到...