導航:首頁 > 文檔加密 > python處理pdf

python處理pdf

發布時間:2022-06-19 05:37:26

python怎麼轉成pdf

方法一:使用虛擬列印機pdf factory即可,而且其他格式文件只要是能夠列印,選擇這個虛擬列印機,都可以做成PDF文件,很簡單實用;
方法二:用其他虛擬列印機轉成PDF文件。
方法三:使用專門的轉換軟體,把文件轉成PDF文件。

Ⅱ 怎樣利用python將pdf轉換成jpg格式

可以用第三方庫wand實現(我的環境:win10、python3)

需要安裝wand 、imagemagick和ghostscript

wand的安裝很簡單:直接cmd 運行pip install wand

然後安裝imagemagick ,從這里下載網頁鏈接,注意是32位還是64位,這個需要和python的位數一致。

安裝過程注意勾選Install development headers and libraries for C and C++ 。安裝後設置MAGICK_HOME環境變數,值為imagemagick的安裝路徑,並將安裝路徑加入path。

詳情可參照此頁面網頁鏈接。

最後安裝ghostscript,這里下載網頁鏈接,選擇AGPL release,注意32位還是64位。

安裝過程很簡單,一路點擊next,如果不想安裝在c盤,可以改變安裝路徑,這個沒有影響。

最後上代碼(很簡單):

#-*-coding:utf-8-*-

fromwand.imageimportImage

withImage(filename="pdf_file_name",resolution=300)asimg:
img.format='jpeg'
img.save(filename='converted.jpg')

上面的pdf_file_name輸入要處理的pdf文件名,最後會在當前目錄下生成converted.jpg

說明:這幾行代碼比較簡單,處理頁數較少的pdf還行,頁數太多會卡住。但是可以用pyPDF2分割pdf然後轉換,這是一種思路,關於pyPDF2的教程自行網路吧。

Ⅲ python怎樣讀取pdf文件的內容

1、首先要下載一個處理pdf的組件pdfminer,網路搜索去官網下載

2、下載完成解壓以後,打開cmd進入用命令安裝。python setup.py install 進行安裝

3、我們來測試一下是否安裝成功了,引入這個模塊,運行一下代碼,沒有報錯就說明安裝成功了

4、官網有文檔也有代碼示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

fp = open('mypdf.pdf', 'rb')
#創建一個PDF文檔解析器對象
parser = PDFParser(fp)
#創建一個PDF文檔對象存儲文檔結構
#提供密碼初始化,沒有就不用傳該參數
document = PDFDocument(parser, password)
#檢查文件是否允許文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#創建一個PDF資源管理器對象來存儲共享資源
rsrcmgr = PDFResourceManager()
#創建一個pdf設備對象
device = PDFDevice(rsrcmgr)
#創建一個PDF解析器對象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#處理文檔當中的每個頁面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)

5、我新建一個pdf,新輸入一些內容

6、運行一下代碼即可

Ⅳ 如何利用Python抓取PDF中的某些內容

你的問題事實上包含幾部分:將PDF轉化為純文本格式抽取其中部分內容格式化寫入到excel中轉換PDF有很多庫可以完成,如下是通過pdfminer的示例:.,..._pdf_2_text(path):rsrcmgr=PDFResourceManager()retstr=StringIO()device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())interpreter=PDFPageInterpreter(rsrcmgr,device)withopen(path,'rb')asfp:forpageinPDFPage.get_pages(fp,set()):interpreter.process_page(page)text=retstr.getvalue()device.close()retstr.close()returntext需要指出的是,pdfminer不但可以將PDF轉換為text文本,還可以轉換為HTML等帶有標簽的文本。上面只是最簡單的示例,如果每頁有很獨特的標志,你還可以按頁單獨處理。

Ⅳ python怎麼合並pdf

<
用下面的方法可以把多個pdf合並成一個PDF文件。
方法一:
1、運行Aaobe acrobat ,然後點擊「創建」—「合並文件到單個PDF」,或者點擊「 創建」右側的「合並」—「合並文件到單個PDF」。
2、彈出「合並文件」的界面,點擊「添加文件」—選擇「添加文件」/「添加文件夾」/「重新使用文件」來進行添加要合並的PDF文件。
3、彈出「添加文件」的界面,選擇好要合並的PDF文件後,點擊「添加文件」,完成要合並pdf文件的添加。
4、看到文件已添加完成,如果要調整合並文件的順序,可以選中該文件然後用左下角的「向上」、「向下」按鍵來進行順序的調整,調整完畢後點擊右下角的「合並文件」按鍵。如果只想合並已添加單個pdf文件中的某幾個頁面可以通過「選擇頁面」選取想要添加的頁面。
5、合並完成以後,會直接打開合並好的文件,名字一般為「組合1」,並自動彈出「另存為」窗口,根據需要變更文件點擊保存即可把合並好的文件保存下來。
方法二:
運行PDF Binder,彈出PDF合並器功能界面,點擊「添加文件」,添加要合並的PDF文件。
在打開界面選擇好要合並的PDF文件後,點擊「打開」,完成要合並pdf文件的添加。
下圖可以看到文件已添加完成,如果要調整合並文件的順序,可以選中該文件然後用功能區的「向上」、「向下」按鍵來進行順序的調整,調整完畢後點擊「合並!」按鍵。
在彈出的「另存為」界面輸入文件名,點擊保存完成文件合並,打開文檔可以看到文檔已合並成功。
方法三,其他如Ap PDF Split-Merge等軟體合並文件。

Ⅵ Python可以用來自動化辦公 實現批量Word轉pdf嗎

這里需要導入幾個模塊
from win32com.client import Dispatch # 沒有的話輸入pip install pywin32命令 即可安裝
from os import walk
import os

os是用於文件處理常用的模塊,至於Dispatch,它是提供了一個介面, win32提供了多種word轉換為其他文件的介面,其中FileFormat=17是轉換為pdf格式.
之後轉換文件邏輯也很簡單,首先需要提取出文件名,word文件的後綴是doc或docx,那麼將後綴名替換為pdf即可轉換,這里用到replace方法,即replace(『docx』,『pdf』).replace(『doc』,『pdf』)因為有可能後綴是doc,所以需要2次判斷。
值得注意的是,轉換的文件夾事先要存在,否則會報錯誤。
下面是項目的源代碼
復制代碼
from win32com.client import Dispatch # pip install pywin32
from os import walk
import os
wdFormatPDF = 17 # win32提供了多種word轉換為其他文件的介面,其中FileFormat=17是轉換為pdf
def doc2pdf(input_file, input_file_name, output_dir):
try:
word = Dispatch('Word.Application')
doc = word.Documents.Open(input_file)
except Exception as e:
print("word無法打開, 發生如下錯誤:\n{}".format(e))
try:
pdf_file_name = input_file_name.replace(".docx", ".pdf").replace(".doc", ".pdf")
pdf_file = os.path.join(output_dir, pdf_file_name)
doc.SaveAs(pdf_file, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
print("成功轉換\"{}\"".format(input_file_name))
print()
except Exception as e:
print("文件保存失敗, 發生如下錯誤:\n{}".format(e))
if __name__ == "__main__":
path_in=input("請輸入word文件夾的路徑(絕對路徑) 要保證存在 建議復制粘貼")
path_out=input("請輸入pdf文件夾的路徑(絕對路徑) 要保證存在 建議復制粘貼")
doc_files = []
directory = path_in# word文件夾
output_dir =path_out # pdf文件夾
for root, _, filenames in walk(directory): # 第2個返回值是dirs, 用不上使用_佔位
for file in filenames:
if file.endswith(".doc") or file.endswith(".docx"):
print("轉換{}中......".format(file))
doc2pdf(os.path.join(root, file), file, output_dir)
復制代碼

Ⅶ python變形調整pdf文檔尺寸

把一個目錄下的所有Word文件,轉換為PDF文件。
1.打開要縮小的pdf文件,在打開的窗口中找到文件選項。2.點擊文件選項後,出現下拉菜單,在這里找到另存為其他。3.滑鼠放到另存為其他選項後,出現新的菜單這里選擇縮小大小的PDF。
Python語法和動態類型,以及解釋型語言的本質,使它成為多數平台上寫腳本和快速開發應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用於獨立的、大型項目的開發。

Ⅷ 支持python3.5的pdf文件處理庫有哪些

pypdf 和 pdfminner 好像都不支持Python3.5,有沒有Python3.5中可用的處理pdf文件的庫
pdfminer3k
和PyPDF2(注意大小寫)
不過後者處理中文時一堆亂碼,很麻煩

閱讀全文

與python處理pdf相關的資料

熱點內容
plc入門編程題目及答案 瀏覽:380
sd卡免費加密的軟體 瀏覽:186
ai編程課加入高考 瀏覽:789
第7天pdf 瀏覽:366
linux撤銷上一個命令 瀏覽:9
pdf文件怎麼在線打開 瀏覽:963
centos安裝交叉編譯工具 瀏覽:890
托福真題pdf 瀏覽:699
小米智能家居可編程 瀏覽:62
非對稱加密盒子鎖 瀏覽:486
javaclassstatic 瀏覽:412
蘋果庫樂隊怎麼連接伺服器 瀏覽:554
程序員埋bug的心理 瀏覽:259
好多個g的文件夾怎麼轉發 瀏覽:324
javadesaes加密 瀏覽:129
基於單片機的wifi設計 瀏覽:888
國什麼app 瀏覽:368
rtk文件夾沒了怎麼辦 瀏覽:189
飢荒安卓閃退怎麼辦 瀏覽:635
python二次開發cad 瀏覽:304