如何轻松搞定Pdf转Word用Python

技术如何轻松搞定Pdf转Word用Python这期内容当中小编将会给大家带来有关如何轻松搞定Pdf转Word用Python,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。大家在日常的工作

本期,边肖将为您带来关于如何使用Python轻松将Pdf转换为Word的信息。文章内容丰富,从专业角度进行分析和叙述。看完这篇文章,希望你能有所收获。

每个人在日常的工作和学习中都会遇到一个问题,那就是把pdf中的文字内容转换成word,也就是从只读变成读写形式。面对这种情况,大多数人都使用在线工具,但在线工具是混合的,很难满足我们的需求。

今天,边肖带领大家使用python来实现如何将pdf内容转换为word文档。同时,我们还会将图片从pdf中提取出来,保存在我们指定的文件夹中。

01.文字的提取

我们需要做的第一件事是提取pdf格式的文本,如下图所示:

如何轻松搞定Pdf转Word用Python

pdf中的汉字只允许只读,不能更改,所以我们要做的就是把Pdf中的文字信息提取出来,然后把提取出来的文字写入word文件中,这样以后就可以重写了。对于文本提取,我们使用pdfminer函数库,其主要功能如下图所示:

如何轻松搞定Pdf转Word用Python

首先,程序使用get_content_from_pdf函数返回从pdf中提取的数据。

然后创建PDFResourceManager对象保存共享数据内容,创建PDFPageAggregator对象将资源对象处理成我们需要的格式,使用PDFPageInterpreter处理页面内容。

程序中的Page_index用来帮助我们设置需要提取哪些页面。对于我们需要提取的页面,页面信息由创建的PDFPageInterpreter对象解释。

最后,数据被PDFPageAggregator对象处理。

这里的布局包含从页面解析的所有类型的对象。包括文本、图片和其他信息。但是,边肖发现pdfminer对图像提取的效果很差,所以对于图像提取,边肖使用fitz库进行单独处理,取得了很好的图像提取效果。说到这里,我们先来看看文本处理的结果。

如何轻松搞定Pdf转Word用Python

我们的pdf是一个两页的pdf文档,我们只让程序提取第一页的文本。从上图可以看出,程序完全提取了第一页的文本,没有任何错误。

02.图片的提取

随着文字的处理,我们来看看如何提取pdf格式的图片并保存到本地。对于图像提取,程序如下图所示:

如何轻松搞定Pdf转Word用Python

在上述程序中,我们使用fitz库提取pdf文档中的对象,然后通过字符串匹配来判断对象是否为图片类型。如果没有,我们可以直接跳过它们。

如果判断对象是图片类型,我们可以通过创建一个PixMap对象来提取图片,并保存到我们指定的路径。结果如下图所示:

如何轻松搞定Pdf转Word用Python

从上图可以看出,我们提取的图片是正确的,从而达到了我们提取图片的目的,边肖也尝试过在没有任何压力的情况下提取很多图片。它可以在几秒钟内提取pdf文档的所有图片。

以上就是如何使用Python轻松将Pdf转换成Word,边肖为大家分享。如有类似疑惑,请参考以上分析了解。想了解更多,请关注行业信息渠道。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54366.html

(0)

相关推荐

  • docker容器网络配置

    技术docker容器网络配置 docker容器网络配置docker容器网络配置
    ip netns(网络名称空间)命令
    [root@Aimmi ~]# rpm -qa|grep iproute
    iprou

    礼包 2021年12月6日
  • 如何安装xtrabackup

    技术如何安装xtrabackup这篇文章主要为大家展示了“如何安装xtrabackup”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何安装xtrabackup”这篇文章吧。

    攻略 2021年11月6日
  • sqlserver登陆后报不能为空不能为null的错误该怎么办

    技术sqlserver登陆后报不能为空不能为null的错误该怎么办sqlserver登陆后报不能为空不能为null的错误该怎么办,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴

    攻略 2021年12月1日
  • 不使用过滤器如何实现vue3时间戳转换

    技术不使用过滤器该怎样实现vue3时间戳转换这期内容当中小编将会给大家带来有关不使用过滤器该怎样实现vue3时间戳转换,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。 vue2转换时间戳

    攻略 2021年12月18日
  • debug P命令跟踪程序时遇到Int 21使用P命令的分析

    技术debug P命令跟踪程序时遇到Int 21使用P命令的分析debug P命令跟踪程序时遇到Int 21使用P命令的分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能

    攻略 2021年11月11日
  • leetcode如何删除相邻重复项(leetcode删除相邻重复项)

    技术leetcode如何删除字符串中的所有相邻重复项这篇文章主要为大家展示了“leetcode如何删除字符串中的所有相邻重复项”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“l

    攻略 2021年12月15日