方法一:使用虚拟打印机pdf factory即可,而且其他格式文件只要是能够打印,选择这个虚拟打印机,都可以做成PDF文件,很简单实用;
方法二:用其他虚拟打印机转成PDF文件。
方法三:使用专门的转换软件,把文件转成PDF文件。
Ⅱ 怎样利用python将pdf转换成jpg格式
可以用第三方库wand实现(我的环境:win10、python3)
需要安装wand 、imagemagick和ghostscript
wand的安装很简单:直接cmd 运行pip install wand
然后安装imagemagick ,从这里下载网页链接,注意是32位还是64位,这个需要和python的位数一致。
安装过程注意勾选Install development headers and libraries for C and C++ 。安装后设置MAGICK_HOME环境变量,值为imagemagick的安装路径,并将安装路径加入path。
详情可参照此页面网页链接。
最后安装ghostscript,这里下载网页链接,选择AGPL release,注意32位还是64位。
安装过程很简单,一路点击next,如果不想安装在c盘,可以改变安装路径,这个没有影响。
最后上代码(很简单):
#-*-coding:utf-8-*-
fromwand.imageimportImage
withImage(filename="pdf_file_name",resolution=300)asimg:
img.format='jpeg'
img.save(filename='converted.jpg')
上面的pdf_file_name输入要处理的pdf文件名,最后会在当前目录下生成converted.jpg
说明:这几行代码比较简单,处理页数较少的pdf还行,页数太多会卡住。但是可以用pyPDF2分割pdf然后转换,这是一种思路,关于pyPDF2的教程自行网络吧。
Ⅲ python怎样读取pdf文件的内容
1、首先要下载一个处理pdf的组件pdfminer,网络搜索去官网下载
2、下载完成解压以后,打开cmd进入用命令安装。python setup.py install 进行安装
3、我们来测试一下是否安装成功了,引入这个模块,运行一下代码,没有报错就说明安装成功了
4、官网有文档也有代码示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
fp = open('mypdf.pdf', 'rb')
#创建一个PDF文档解析器对象
parser = PDFParser(fp)
#创建一个PDF文档对象存储文档结构
#提供密码初始化,没有就不用传该参数
document = PDFDocument(parser, password)
#检查文件是否允许文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#创建一个PDF资源管理器对象来存储共享资源
rsrcmgr = PDFResourceManager()
#创建一个pdf设备对象
device = PDFDevice(rsrcmgr)
#创建一个PDF解析器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#处理文档当中的每个页面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
5、我新建一个pdf,新输入一些内容
6、运行一下代码即可
Ⅳ 如何利用Python抓取PDF中的某些内容
你的问题事实上包含几部分:将PDF转化为纯文本格式抽取其中部分内容格式化写入到excel中转换PDF有很多库可以完成,如下是通过pdfminer的示例:.,..._pdf_2_text(path):rsrcmgr=PDFResourceManager()retstr=StringIO()device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())interpreter=PDFPageInterpreter(rsrcmgr,device)withopen(path,'rb')asfp:forpageinPDFPage.get_pages(fp,set()):interpreter.process_page(page)text=retstr.getvalue()device.close()retstr.close()returntext需要指出的是,pdfminer不但可以将PDF转换为text文本,还可以转换为HTML等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。
Ⅳ python怎么合并pdf
<
用下面的方法可以把多个pdf合并成一个PDF文件。
方法一:
1、运行Aaobe acrobat ,然后点击“创建”—“合并文件到单个PDF”,或者点击“ 创建”右侧的“合并”—“合并文件到单个PDF”。
2、弹出“合并文件”的界面,点击“添加文件”—选择“添加文件”/“添加文件夹”/“重新使用文件”来进行添加要合并的PDF文件。
3、弹出“添加文件”的界面,选择好要合并的PDF文件后,点击“添加文件”,完成要合并pdf文件的添加。
4、看到文件已添加完成,如果要调整合并文件的顺序,可以选中该文件然后用左下角的“向上”、“向下”按键来进行顺序的调整,调整完毕后点击右下角的“合并文件”按键。如果只想合并已添加单个pdf文件中的某几个页面可以通过“选择页面”选取想要添加的页面。
5、合并完成以后,会直接打开合并好的文件,名字一般为“组合1”,并自动弹出“另存为”窗口,根据需要变更文件点击保存即可把合并好的文件保存下来。
方法二:
运行PDF Binder,弹出PDF合并器功能界面,点击“添加文件”,添加要合并的PDF文件。
在打开界面选择好要合并的PDF文件后,点击“打开”,完成要合并pdf文件的添加。
下图可以看到文件已添加完成,如果要调整合并文件的顺序,可以选中该文件然后用功能区的“向上”、“向下”按键来进行顺序的调整,调整完毕后点击“合并!”按键。
在弹出的“另存为”界面输入文件名,点击保存完成文件合并,打开文档可以看到文档已合并成功。
方法三,其他如Ap PDF Split-Merge等软件合并文件。
Ⅵ Python可以用来自动化办公 实现批量Word转pdf吗
这里需要导入几个模块
from win32com.client import Dispatch # 没有的话输入pip install pywin32命令 即可安装
from os import walk
import os
os是用于文件处理常用的模块,至于Dispatch,它是提供了一个接口, win32提供了多种word转换为其他文件的接口,其中FileFormat=17是转换为pdf格式.
之后转换文件逻辑也很简单,首先需要提取出文件名,word文件的后缀是doc或docx,那么将后缀名替换为pdf即可转换,这里用到replace方法,即replace(‘docx’,‘pdf’).replace(‘doc’,‘pdf’)因为有可能后缀是doc,所以需要2次判断。
值得注意的是,转换的文件夹事先要存在,否则会报错误。
下面是项目的源代码
复制代码
from win32com.client import Dispatch # pip install pywin32
from os import walk
import os
wdFormatPDF = 17 # win32提供了多种word转换为其他文件的接口,其中FileFormat=17是转换为pdf
def doc2pdf(input_file, input_file_name, output_dir):
try:
word = Dispatch('Word.Application')
doc = word.Documents.Open(input_file)
except Exception as e:
print("word无法打开, 发生如下错误:\n{}".format(e))
try:
pdf_file_name = input_file_name.replace(".docx", ".pdf").replace(".doc", ".pdf")
pdf_file = os.path.join(output_dir, pdf_file_name)
doc.SaveAs(pdf_file, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
print("成功转换\"{}\"".format(input_file_name))
print()
except Exception as e:
print("文件保存失败, 发生如下错误:\n{}".format(e))
if __name__ == "__main__":
path_in=input("请输入word文件夹的路径(绝对路径) 要保证存在 建议复制粘贴")
path_out=input("请输入pdf文件夹的路径(绝对路径) 要保证存在 建议复制粘贴")
doc_files = []
directory = path_in# word文件夹
output_dir =path_out # pdf文件夹
for root, _, filenames in walk(directory): # 第2个返回值是dirs, 用不上使用_占位
for file in filenames:
if file.endswith(".doc") or file.endswith(".docx"):
print("转换{}中......".format(file))
doc2pdf(os.path.join(root, file), file, output_dir)
复制代码
Ⅶ python变形调整pdf文档尺寸
把一个目录下的所有Word文件,转换为PDF文件。
1.打开要缩小的pdf文件,在打开的窗口中找到文件选项。2.点击文件选项后,出现下拉菜单,在这里找到另存为其他。3.鼠标放到另存为其他选项后,出现新的菜单这里选择缩小大小的PDF。
Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。
Ⅷ 支持python3.5的pdf文件处理库有哪些
pypdf 和 pdfminner 好像都不支持Python3.5,有没有Python3.5中可用的处理pdf文件的库
pdfminer3k
和PyPDF2(注意大小写)
不过后者处理中文时一堆乱码,很麻烦