㈠ vb.net 導出pdf
這是MSDN給出的一些答案:
http://social.msdn.microsoft.com/Forums/vstudio/en-US/e79afbe3-70d8-4d4e-b651-a864b7e5e7d9/read-parse-a-pdf-file-using-vbnet
http://social.msdn.microsoft.com/Forums/vstudio/en-US/4ca6b6fc-b483-44b3-bce0-eeb2f159c879/how-to-read-a-pdf-text-in-vbnet
http://social.msdn.microsoft.com/Forums/vstudio/en-US/83dd4a50-ee2a-4a57-a71b-7d2f5e06d024/how-to-read-pdf-file-line-by-line-like-text-file
㈡ 已做好的PDF文檔可不可以再添加標簽,如何添加
當然可以,你點擊左邊的「書簽」,然後點擊「選項」。
你可以看到「添加新書簽」了。如圖
㈢ 如何創建pdf的buffer,讓pdf.js實現預覽pdf文件
pdf.js簡介
PDF.js 是基於開放的 HTML5 及 javaScript 技術實現的開源產品。簡單說就是一個 PDF
解析器。運用HTML5JavaScript(即pdf.js僅使用安全的web語言,不包含任何攻擊者可以用的本地代碼塊)的PDF閱讀器pdf.js,直接在標準的HTML頁面上載入和渲染PDF文件, 還可以提高安全性(不需要安裝第三方插件,安全性由瀏覽器保證),瀏覽器所做的安全措施已經為pdf.js提供了安全的運行環境。其對IE和 FireFox瀏覽器的要求是IE9+, FireFox19+。
在線示例: http://jsbin.com/pdfjs-helloworld-v2/1/edit
, http://jsbin.com/pdfjs-prevnext-v2/1/edit
源碼:https://github.com/mozilla/pdf.js
官網:http://mozilla.github.io/pdf.js/
pdf.js VS 傳統瀏覽器讀取pdf
一般來說,PDF檔案格式都是在瀏覽器中由外掛程式來描繪,通常是Adobe自己的PDF
reader或來自其他供應商的描繪工具,但這些外掛通常無法充分運用PDF的特點,而且由於含有大量的受信任代碼,使得Google
Chrome瀏覽器必須運用SandBox沙箱原理,來檢查PDF描繪工具是否遭到未知病毒感染。
使用adobe,必須在本地安裝軟體才能使用,而pdf.js不依賴環境、渲染速度快(測試過,確實很快)、安全性高。
pdf.js渲染PDF文件
pdf.js渲染PDF文件的流程:Fetch pdf (url / buffer) ——> canvas ——> 渲染
如果要深入pdf的渲染,需要去研究pdf.js源代碼。pdf.js可通過pdf文件的地址或pdf數據流獲取pdf,具體實現是調用介面函數 PDFJs.getDoc(url/buffer)將pdf載入html,通過canvas處理, 然後渲染pdf文件。網上給出的都是通過url來獲取pdf的例子,而我在做項目的時候,後台(Python)要求是發pdf的數據流給前台,前台接收pdf的buffer,然後通過pdf.js來渲染。當然最初嘗試buffer出現了很多問題,具體問題總結如下:
1)如何通過$.ajax接收後台發給前台的buffer數據;
2)如何將buffer傳給pdf.js來處理(這里我使用了viewer.js, 所以需要考慮的是如何將buffer傳給viewer.js來處理);
3)如何將pdf.js轉換成pdf.js可以接收的buffer格式;
(對應問題解決見代碼注釋)
註:viewer.js是pdf.js的擴展,其將列印、翻頁、縮放等功能進行了實現,且界面非常好看。也就是說如果你引入了viewer.js,pdf的渲染和渲染之後的功能界面都已經幫你實現了,你不用自己去寫界面。
先從官網:http://mozilla.github.io/pdf.js/ 下載代碼,然後使用文件viewer.html
, 我的html就是在viewer.html 的基礎上修改的,下面我給出buffer的例子:
<!DOCTYPE html>
<html dir="ltr" mozdisallowselectionprint moznomarginboxes>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
<meta name="google" content="notranslate">
<title>在線預覽</title>
{% load static %}{% get_static_prefix as STATIC_URL %}
<link href="{{STATIC_URL}}css/preview.css" rel="stylesheet" type="text/css" />
<link rel="stylesheet" href="{{STATIC_URL}}pdfjs/web/viewer.css"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/compatibility.js"></script>
<link rel="resource" type="application/l10n" href="{{STATIC_URL}}pdfjs/web/locale/locale.properties"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/l10n.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/build/pdf.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/debugger.js"></script>
<script src="{{STATIC_URL}}js/jquery-1.8.3.js" type="text/javascript"></script>
<script type="text/javascript">
//convertDataURIToBinary()
//不知道什麼原因如果後台直接將pdf的數據流發給前台,得到的是亂碼,將數據轉換成 Uint8Array始終不成功
//所以就讓後台將發送之前的數據流做 了base64編碼發給前台,前台再解碼得到的數據就不是亂碼了。
var BASE64_MARKER = ';base64,';
var preFileId = {{mark}};
//viewer.js全局變數,傳入buffer,回答問題2
var DEFAULT_URL
$(document).ready(function(){
$.ajax({
type:"post",
async: false,
//ajax接收pdf數據流,注意dataType值的設置是否有錯,如果不指定,jQuery將自動根據HTTP包MIME信息返回
//responseXML或responseText
. 回答問題1
contentType:"application/pdf;charset=utf-8",
url:"{% url netPan.File.views.browserFuf%}",
data:{
id: preFileId
},
success:function(data){
var pdfAsDataUri = data;
//如果引入了viewer.js , 處理方法
var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);
DEFAULT_URL = pdfAsArray;
// 只引入了pdf.js, 未引入viewer.js, 處理方法
// var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);
// PDFJS.getDocument(pdfAsArray).then(); 自己寫pdf的處理函數
}
});
});
function convertDataURIToBinary(dataURI) { //編碼轉換,回答問題3
var base64Index = dataURI.indexOf(BASE64_MARKER) + BASE64_MARKER.length;
var base64 = dataURI.substring(base64Index);
var raw = window.atob(base64);
var rawLength = raw.length;
//轉換成pdf.js能直接解析的Uint8Array類型,見pdf.js-4068
var array = new Uint8Array(new ArrayBuffer(rawLength));
for(i = 0; i < rawLength; i++) {
array[i] = raw.charCodeAt(i);
}
return array;
}
</script>
<!--先設置全局變數DEFAULT_URL 的值,所以要後調入viewer.js -->
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/viewer.js"></script>
</head>
<body>
省略內容
</body>
</html>
㈣ ASP截取字元串問題 (在代碼中截取http://***/***/***.pdf部分)
jquery 有專門的選擇器 選擇所有帶.pdf的鏈接。
㈤ jquery 根據獲取到的src的值 更改此標簽的樣式
$("img").each(function(i){
varsrc=$(this).attr('src');
if(src.indexOf('xls')>-1||src.indexOf('pdf')>-1||src.indexOf('doc')>-1){
$(this).css('width','auto');
}
}
㈥ c# 實現word轉換成pdf (帶圖片的word)
usingWord=Microsoft.Office.Interop.Word;//引入空間,設置互操作,注意版本12.0.0.0,官方的還有個14.0.0.0的,我用的是12,可正常生成。
publicboolDOCToPDF(stringsourcePath,stringtargetPath)
}//enddoc
㈦ PDF總是崩潰
可能你使用的PDF軟體有問題,重裝PDF應用軟體,或者換一個軟體試試。因不知道你是用的PDF軟體到底是哪一個,目前只能給你這點建議。如有可能請詳述崩潰的現象。
㈧ asp.net中,gridview中的數據能不能導出成pdf格式的文件
system.web.ui.control
ctl=this.datagrid1;
//datagrid1是你在窗體中拖放的控制項
httpcontext.current.response.appendheader("content-disposition","attachment;filename=excel.xls");
httpcontext.current.response.charset
="utf-8";
httpcontext.current.response.contentencoding
=system.text.encoding.default;
httpcontext.current.response.contenttype
="application/ms-excel";
ctl.page.enableviewstate
=false;
system.io.stringwriter
tw
=
new
system.io.stringwriter()
;
system.web.ui.htmltextwriter
hw
=
new
system.web.ui.htmltextwriter
(tw);
ctl.rendercontrol(hw);
httpcontext.current.response.write(tw.tostring());
httpcontext.current.response.end();
㈨ 如何將pdf格式文件轉換成word格式文件
1.Office組件把PDF轉成Word:
可以利用Office 2003中的Microsoft Office Document Imaging組件來實現PDF轉WORD文檔,也就是說利用WORD來完成該任務。方法如下:
用Adobe Reader打開想轉換的PDF文件,接下來選擇「文件→列印」菜單,在打開的「列印」窗口中將「列印機」欄中的名稱設置為「Microsoft Office Document Image Writer」,確認後將該PDF文件輸出為MDI格式的虛擬列印文件。
注:如果沒有找到「Microsoft Office Document Image Writer」項,使用Office 2003安裝光碟中的「添加/刪除組件」更新安裝該組件,選中「Office 工具 Microsoft DRAW轉換器」。
然後,運行「Microsoft Office Document Imaging」,並利用它來打開剛才保存的MDI文件,選擇「工具→將文本發送到Word」菜單,在彈出的窗口中選中「在輸出時保持圖片版式不變」,確認後系統會提示「必須在執行此操作前重新運行OCR。這可能需要一些時間」,不管它,確認即可。
注:對PDF轉DOC的識別率不是特別完美,轉換後會丟失原來的排版格式,所以轉換後還需要手工對其進行排版和校對工作。
以上僅在word2003中可用,其他版本沒有Microsoft Office Document Image Writer。
2.利用第三方工具軟體:
ScanSoft PDF Converter For Microsoft Word
下載地址:
http://www.mydown.com/soft/245/245551.html
3.ASP.Net實現將Word轉換PDF格式:
一:必備工具
安裝必須的工具MS VS.Net2003,MS Office2003,Adobe Acrobat 7.0 Professional,postscript.exe,gs811w32.exe
MS VS.Net2003的安裝不說明
MS Office2003的安裝不說明
Adobe Acrobat 7.0 Professional安裝說明
運行setup.exe文件,出現輸入序列號,就運行注冊機,用滑鼠在第一行刷下就可以看見序列號,復制粘貼到Adobe Acrobat 7.0 Professional安裝程序對話框,安裝到最後出現注冊時,點擊PHONE...將安裝程序中顯示的第二行序列號(第一行是剛才注冊機生成的序列號)復制粘貼到注冊機的第二行,點擊右邊的按鈕,再用滑鼠刷第三行授權號就出來了,將其復制粘貼到安裝程序的最後一行,完成安裝注冊!
postscript.exe默認安裝就可以了,它是一個PDF轉換時所需要的腳本
gs811w32.exe默認安裝就可以,它其實是個PDF虛擬列印機的驅動
二:配置虛擬列印機
進入Windows的控制面板,進入列印機,點擊"添加列印機"圖標.在安裝對話框上"按一步",出現選擇列印機時,在製造商一欄中選擇"Generic",在列印機一欄中,選擇"MS Publisher Color Printer",然後一路按下一步,知道安裝結束.
三:開始寫第一個程序(腳本程序)
為什麼要使用腳本程序進行轉換呢,其實實際測試過程中,使用PDF Distiller的對象引用到C#後,轉換成功,但整個PDF Distiller對象不能釋放,第二次再轉換時,就發生了錯誤,故此處使用腳本程序實現轉換.這樣我們只要在C#的程序中調用腳本程序就可以實現WORD到PDF的轉換。
宿主腳本文件名:ConvertDoc2PDF.js
腳本文件內容:
var files = WScript.Arguments;
var fso = new ActiveXObject("Scripting.FileSystemObject");
var word = new ActiveXObject("Word.Application");
var PDF = new ActiveXObject("PDFDistiller.PDFDistiller.1");
word.ActivePrinter = "MS Publisher Color Printer";
//files(0) 為WORD文檔文件名
//files(1) 為,轉換後需要保存的路徑
//調用fso.GetBaseName(files(0))後,為無路徑,無擴展名,的文件名
//files.length為文件參數的個數,使用循環可以支持多個WORD文檔的轉換
var docfile = files(0);
var psfile = files(1) + fso.GetBaseName(files(0)) + ".ps";
var pdffile = files(1) + fso.GetBaseName(files(0)) + ".pdf";
var logfile = files(1) + fso.GetBaseName(files(0)) + ".log";
try{
var doc = word.Documents.Open(docfile);
//WORD文件轉成PS文件;
word.PrintOut(false, false, 0, psfile);
doc.Close(0);
//PS文件轉成PDF文件;
PDF.FileToPDF(psfile,pdffile,"");
fso.GetFile(psfile).Delete();//刪除PS腳本文件
fso.GetFile(logfile).Delete();//刪除轉換的日誌文件
word.Quit();
WScript.Echo("isuccess");//成功
WScript.Quit(0);
}
catch(x)
{
word.Quit();
WScript.Echo("isfail");//失敗
WScript.Quit(0);
}
然後測試該腳本程序
啟動MS-DOS,輸入如下命令:
c:\>cscript //nologo c:\ConvertDoc2PDF.js c:\test.doc c:\
說明:
運行成功後將看到test.pdf文檔了
c:\test.doc參數對應的是腳本程序中的files(0)
c:\參數對應的是腳本程序中的files(1)
你可以安照該腳本改寫成,支持多個參數,使用FOR循環,一次轉換多個WORD文檔,此處沒有使用多個文件轉換功能,是考慮到,該段腳本放在C#的線程中執行,這樣一來也可以轉換多個WORD文檔.
四:使用C#調用ConvertDoc2PDF.js腳本
新建一個C#的WINDOWS應用程序,添加一個按鈕button1
添加一個函數,函數名StartConvertPDF
public void StartConvertPDF()
{
Process proc = new Process();
proc.StartInfo.FileName = "cmd.exe";
proc.StartInfo.WorkingDirectory = @"c:\";
proc.StartInfo.CreateNoWindow = true;
proc.StartInfo.UseShellExecute = false;
proc.StartInfo.RedirectStandardInput = true; //輸入重定向
proc.Start();
proc.StandardInput.WriteLine(@"cscript //nologo c:\ConvertDoc2PDF.js c:\test.doc c:\");
proc.StandardInput.WriteLine("exit");
proc.WaitForExit();
}
然後在按鈕的CLICK事件中添加調用線程的代碼
private void button1_Click(object sender, System.EventArgs e)
{
//定義線程序
Thread thConvert = new Thread(new ThreadStart(StartConvertData));
thConvert.Start();
}
注意:在測試上面的C#程序時,必須添加如下命名空間
using System.Diagnostics;
using System.Threading;
五:健壯的C#調用代碼(實際考慮,可放在B/S系統中)
完成第4步的C#測試後,細心的讀者,可能看到一點問題,那就是如何得到腳本運行後輸出的結果,如何給線程中調用的StartConvertData方法傳遞參數
1:傳遞參數,此話說來也可用一篇教程告訴大家線程中方法如何來傳遞參數,現在就講一個方案,此種方案很多,我採用一個類,初始化這個類,然後調用該類的方法作為線程執行的方法
2:得到腳本的輸出結果,使用Process對象的輸出重定向,就是說改變輸出方向,使腳本不輸出到控制台(MS-DOS窗口),而是重定向輸出到C#程序中,並採用線程的非同步回調方法,顯示腳本運行結果。
添加一個新類,類名為ToPdf
using System;
using System.Diagnostics;
using System.ComponentModel;
using System.Windows.Forms;
using System.Data;
namespace Doc2Pdf
{
public class ToPdf
{
private string strWord = "";//此處的WORD文件不含路徑
private string sPath = "";
public string sExecResult = "";
public bool bSuccess = false;
public ToPdf(string sParamWord,string sParamPath)
{
strWord = sParamWord;
sPath = sParamPath;
}
public void StartConvertPDF()
{
Process proc = new Process();
proc.StartInfo.FileName = "cmd.exe";
proc.StartInfo.WorkingDirectory = sPath;
proc.StartInfo.CreateNoWindow = true;
proc.StartInfo.UseShellExecute = false;
proc.StartInfo.RedirectStandardInput = true;//標准輸入重定向
proc.StartInfo.RedirectStandardOutput = true;//標准輸出重定向
proc.Start();
proc.StandardInput.WriteLine("cscript //nologo "+sPath+"ConvertDoc2PDF.js "+sPath+strWord+ " "+sPath);
proc.StandardInput.WriteLine("exit");
sExecResult = proc.StandardOutput.ReadToEnd();//返回腳本執行的結果
proc.WaitForExit();
proc.Close();
}
public void EndConvertPDF(System.IAsyncResult ar)//ar參數必須寫,是線程執行完成後的回調函數
{
if(sExecResult.IndexOf("isuccess")!=-1)bSuccess=true;
else if(sExecResult.IndexOf("isfail")!=-1)bSuccess=false;
//如果放在B/S系統,你可以在此處寫資料庫,是成功還是失敗,並用一個WEBService程序不斷檢查資料庫,此WEBService程序不放在該回調用函數中
//如果放在C/S系統,回調函數可以不放在類中,以便在窗體程序中調用結果
}
}
}
改寫原來的button1_Click事件中的代碼
private void button1_Click(object sender, System.EventArgs e)
{
ToPdf my2Pdf = new ToPdf("test.doc","c:\\");
ThreadStart thStartConvert = new ThreadStart(my2Pdf.StartConvertPDF); //開始非同步調用線程
thStartConvert.BeginInvoke(new AsyncCallback(my2Pdf.EndConvertPDF),null);//設置非同步線程的回調函數
//如果需要轉換多個WORD,你可以用循環
//如果是B/S系統,可以將本段代碼放在ASPX中,並結合客戶端的無刷新顯示數據的技術,不斷訪問WEBService程序,以確定PDF是否轉換成功或失敗
}
六:編寫更加健壯的C#調用代碼(實際考慮,可放在WINDOWS的服務程序中)
實際使用時,由於轉化PDF時CPU的佔用率很高,考慮只在同一時間轉換一篇WORD文檔,放棄非同步線程的回調函數的使用,考慮一個WINDOWS的服務程序。
寫一個函數CheckData2Convert(),不斷的檢查沒有轉換的WORD文檔,並使用循環調用ToPdf類中執行轉換方法StartConvertPDF
//以下給出,泛代碼,用戶按照自己的需求,填寫完整即可
//bool bStart為全局變數,控制循環的進入與退出
//例:18:30開始檢查並轉換,那麼18:30時,bStart=true;並啟動轉換線程
//6:30停止轉換線程,bStart=fasle;
private void CheckData2Convert()
{
//檢查指定目錄下的沒有轉換的WORD文檔,你同樣可以檢查資料庫中記錄的沒有轉換的WORD文檔
string sPath = System.Threading.Thread.GetDomain().BaseDirectory; //當前的路徑
while(bStart)
{
int iFileCount = CheckWord(); //CheckWord為一個方法,檢查當前沒有轉換的WORD文檔,返回沒有轉換的文件數,該方法的代碼由讀者自己編寫
for(int i=0;i<iFileCount;i++)
{
string sWord = GetWordFileName(i) //GetWordFileName為一個方法,返回一個不帶路徑的WORD文件名,該方法的代碼由讀者自己編寫
//ToPdf類中的StartConvertPDF()方法使用的是不帶路徑的WORD文件名
ToPdf my2Pdf = new ToPdf(sWord ,sPath);
my2Pdf.StartConvertPDF();
if(my2Pdf.sExecResult.IndexOf("isuccess")!=-1)
{
//成功,寫日誌,或回寫資料庫
}
else if(my2Pdf.sExecResult.IndexOf("isfail")!=-1)
{
//失敗,寫日誌,或回寫資料庫
}
}
if(!bStart)break;
Thread.Sleep(1000);
}
}
然後在服務的開始事件中,啟動線程
protected override void OnStart(string[] args)
{
//可以使用一個開始定時器,檢查是否到開始時間,時間一到,就開始執行線程,此處的開始執行線程可以放在開始定時事件中
//可以使用一個結束定時器,檢查是否到結束時間,時間一到,就結束線程,結束線程的代碼可以放在結束定時事件中
//注意:應該使用組件中的定時器,而不是Windows的FORMS中的定時器
//該定時器的類名為System.Timers.Timer,千萬別搞錯,不然執行不會正常的
bStart = true;
Thread thConvert = new Thread(new ThreadStart(StartConvertData));
thConvert.Start();
}
然後在服務的結束事件中,設置停止線程的標識bStart= false
protected override void OnStop()
{
bStart = false;
//為何次處不停止線程呢,因為考慮到,現在線程正在轉換WORD文檔,但沒有結束,所以只設置停止標識,轉換完成後,線程也執行結束了.
}
㈩ 求C#高手::如何用c#程序將pdf文件轉換成excel文件
PDF文件讀取出來內容順序容易混亂,再插入到Excel很難保持原格式,我用的Spire.PDF庫轉換,基本上能保持格式
using Spire.Pdf;
namespace ConvertPDFToExcel
{
class Program
{
static void Main(string[] args)
{
PdfDocument pdf = new PdfDocument();
//載入PDF
pdf.LoadFromFile("測試.pdf");
//保存為Excel
pdf.SaveToFile("PDFToExcel.xlsx", FileFormat.XLSX);
}
}
}