使用 ImageMagick 和 pytesseract 进行 OCR - 综合指南
haoteby 2025-01-12 15:12 3 浏览
ImageMagick 是一个开源软件套件,可用于创建、编辑和转换位图图像。它可用于处理各种图像格式,包括 PNG、JPEG、BMP 和 GIF。除了图像处理之外,ImageMagick 还包括用于创建动画、在文件格式之间转换和生成缩略图的实用程序。ImageMagick 最强大的功能之一是它能够对图像执行光学字符识别 (OCR),这使我们能够从图像和扫描文档中提取文本。在本文中,我们将讨论如何使用 ImageMagick 和 pytesseract 对图像文件和扫描的 PDF 进行 OCR。
安装 ImageMagick
在我们使用 ImageMagick 之前,我们需要在我们的系统上安装它。ImageMagick 适用于 Windows、macOS 和 Linux。要在 Linux 上安装 ImageMagick,我们可以使用我们发行版的包管理器。例如,在 Ubuntu 上,我们可以运行以下命令来安装 ImageMagick:
sudo apt-get install imagemagick
在 Windows 和 macOS 上,我们可以从 ImageMagick 网站下载安装程序并运行它来安装 ImageMagick。
安装 pytesseract
Pytesseract 是 Google 的 Tesseract OCR 引擎的 Python 包装器。要使用 pytesseract,我们需要安装 Tesseract OCR 及其语言数据文件。在 Linux 上,我们可以使用我们发行版的包管理器安装 Tesseract OCR。例如,在 Ubuntu 上,我们可以运行以下命令来安装 Tesseract OCR:
sudo apt-get install tesseract-ocr
在 Windows 和 macOS 上,我们可以从 Tesseract OCR 网站下载安装程序并运行它来安装 Tesseract OCR。
安装 Tesseract OCR 后,我们可以使用 pip 安装 pytesseract:
pip install pytesseract
使用 ImageMagick 和 pytesseract 进行 OCR
要使用 ImageMagick 和 pytesseract 对图像文件执行 OCR,我们可以使用以下步骤:
使用 ImageMagick 的“convert”实用程序将图像文件转换为灰度图像
convert input.jpg -colorspace gray output.jpg
使用 ImageMagick 的“normalize”实用程序增强灰度图像的对比度
convert output.jpg -normalize output.jpg
使用pytesseract对增强后的灰度图进行OCR
import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open('output.jpg'))
print(text)
上面的代码将打印从图像文件中提取的文本。
对扫描的 PDF 执行 OCR
要对扫描的 PDF 进行 OCR,我们可以使用 ImageMagick 将 PDF 转换为单独的图像文件,然后使用 pytesseract 对每个图像文件进行 OCR。这是一个例子:
import pytesseract
from pdf2image import convert_from_path
pages = convert_from_path('document.pdf', 300)
for i, page in enumerate(pages):
page.save(f'page_{i+1}.jpg', 'JPEG')
text = pytesseract.image_to_string(page)
print(f'Page {i+1}: {text}')
在上面的代码中,我们使用了“pdf2image”库将 PDF 的每一页转换为 JPEG 图像文件。然后我们使用 pytesseract 对每个图像文件执行 OCR 并打印提取的文本。
结论
ImageMagick 是一个强大的工具,可用于图像处理和 OCR。当与 pytesseract 结合使用时,ImageMagick 可用于对图像文件和扫描的 PDF 执行 OCR,使其成为数据提取和分析的宝贵工具。
相关推荐
- 百度首席技术官王海峰:飞桨已拥有750万名开发者 文心一言将逐步开放插件生态
-
【百度首席技术官王海峰:飞桨已拥有750万名开发者文心一言将逐步开放插件生态】《科创板日报》6日讯,2023世界人工智能大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰表示,截至...
- 那些不得不装的浏览器插件,日英文视频自动翻译、广告、沉浸阅读
-
这年头各种浏览器层出不穷,要说使用量最大的还是基于chromium内核的吧。MicrosoftEdge、360、QQ……哪个厂商不说它香!chromium系的强大扩展性让我们浏览网页的体验越来越爽了...
- 百度站长平台:论坛搜索功能升级 推论构化数据插件
-
站长之家(Chinaz.com)3月26日消息近日,百度站长平台站内搜索功能针对论坛站点新增了搜版块和搜用户功能。此外,还推出了新版的论坛结构化数据插件,分为兼容版和完整版两个版本。注意,兼容版无法开...
- 百度王海峰:文心3.5效果全面提升 将发布更多百度官方和第三方插件
-
中证网讯(记者彭思雨)7月6日,2023世界人工智能大会在上海开幕。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰表示,文心大模型3.5效果、功能、性能全面提升,实现了基础模型升级、精...
- WORDPRESS好用的seo插件:生成百度站点地图
-
BaiduSitemapGenerator是何方大神?BaiduSitemapGenerator是一个wordpress插件,BaiduSitemapGenerator可以生成格式化sit...
- 你能容忍百度不经过允许给用户下载插件吗?
-
文/懒人先生(首发头条)最近,百度又摊上事儿了,这次找事儿的可不是个人,而是网友整个团体啊,事情的缘起是因为有一个网友在网上反映百度地图会自动在后台下载一些热门的音频文件,这样做的后果就是有可能网友们...
- 提升工作效率的三款excel插件推荐,相信你总会得到有价值的东西
-
本内容来源于@什么值得买SMZDM.COM|生活家被演南非有这样的一句话“会excel的比会word的挣得多,会ppt的比会excel的挣得多”但我看来,office三件套word、excel、pp...
- 工具 | 直接在网页上做标记?这些插件简直不要太赞
-
哈喽,大家好。好久不见啊!!!2021年的第一篇推文来啦~有小伙伴在后台留言:浏览网页时如何做标记?所以这篇推文就来介绍一下~之前的推文中有介绍过,浏览网页时如何快速定位关键词,其实也算是做标记的一种...
- 良心合集!Adobe Audition常用插件免费下载
-
八月了时间很快...
- 用上这几个脚本,多家网盘下载不限速
-
下载别人分享的文件需要用到各种网盘,有的网盘下载一个小文件也需要转存才能下载,或是需要客户端与会员等操作,在日常使用的时候不是很方便,百度网盘相关的下载工具已经介绍过很多了。今天就来给大家推荐几个其他...
- 论坛站站长的福音 百度DZ插件跨越式升级
-
站长之家(chinaz.com)3月31日消息:百度站长平台今日跨越式升级discuz百度结构化数据提交插件,此次跨越式升级提升了收录时效性,而且支持提交有关用户和版块数据。如果你是使用Discuz!...
- 百度CTO王海峰:文心大模型3.5新增插件机制 使其具备生成实时准确信息的能力
-
【百度CTO王海峰:文心大模型3.5新增插件机制使其具备生成实时准确信息的能力】《科创板日报》27日讯,百度首席技术官王海峰表示,文心大模型3.5最大的一个变化是新增了插件机制,默认的内置插件“百度...
- flutter集成 百度地图 ^2.0.1版本 | 绕坑必备
-
我之前在flutter中使用高德地图,发现没有引入,总是编译错误,后面我选择了使用flutter_map;flutter_map有一个局限是使用瓦片渲染。且只能渲染;要想效果好一点就用mapbox的...
- 百度文心一言新增搜索、图表生成等5大原生插件
-
【百度文心一言新增搜索、图表生成等5大原生插件】《科创板日报》16日讯,今日,文心一言发布五个原生插件:百度搜索、览卷文档(基于文档的交互)、E言易图(数据洞察图表生成)、说图解画(基于图片的交互)、...