indexofpdf_已做好的PDF文档可不可以再添加标签如何添加

㈠ vb.net 导出pdf

这是MSDN给出的一些答案：
http://social.msdn.microsoft.com/Forums/vstudio/en-US/e79afbe3-70d8-4d4e-b651-a864b7e5e7d9/read-parse-a-pdf-file-using-vbnet
http://social.msdn.microsoft.com/Forums/vstudio/en-US/4ca6b6fc-b483-44b3-bce0-eeb2f159c879/how-to-read-a-pdf-text-in-vbnet
http://social.msdn.microsoft.com/Forums/vstudio/en-US/83dd4a50-ee2a-4a57-a71b-7d2f5e06d024/how-to-read-pdf-file-line-by-line-like-text-file

㈡已做好的PDF文档可不可以再添加标签，如何添加

当然可以，你点击左边的“书签”，然后点击“选项”。

你可以看到“添加新书签”了。如图

㈢如何创建pdf的buffer，让pdf.js实现预览pdf文件

pdf.js简介

PDF.js 是基于开放的 HTML5 及 javaScript 技术实现的开源产品。简单说就是一个 PDF
解析器。运用HTML5JavaScript（即pdf.js仅使用安全的web语言，不包含任何攻击者可以用的本地代码块）的PDF阅读器pdf.js，直接在标准的HTML页面上载入和渲染PDF文件, 还可以提高安全性（不需要安装第三方插件，安全性由浏览器保证），浏览器所做的安全措施已经为pdf.js提供了安全的运行环境。其对IE和 FireFox浏览器的要求是IE9+, FireFox19+。

在线示例： http://jsbin.com/pdfjs-helloworld-v2/1/edit
， http://jsbin.com/pdfjs-prevnext-v2/1/edit

源码：https://github.com/mozilla/pdf.js

官网：http://mozilla.github.io/pdf.js/

pdf.js VS 传统浏览器读取pdf

一般来说，PDF档案格式都是在浏览器中由外挂程式来描绘，通常是Adobe自己的PDF
reader或来自其他供应商的描绘工具，但这些外挂通常无法充分运用PDF的特点，而且由于含有大量的受信任代码，使得Google
Chrome浏览器必须运用SandBox沙箱原理，来检查PDF描绘工具是否遭到未知病毒感染。

使用adobe，必须在本地安装软件才能使用，而pdf.js不依赖环境、渲染速度快（测试过，确实很快）、安全性高。

pdf.js渲染PDF文件

pdf.js渲染PDF文件的流程：Fetch pdf (url / buffer) ——> canvas ——> 渲染

如果要深入pdf的渲染，需要去研究pdf.js源代码。pdf.js可通过pdf文件的地址或pdf数据流获取pdf，具体实现是调用接口函数 PDFJs.getDoc(url/buffer)将pdf载入html，通过canvas处理, 然后渲染pdf文件。网上给出的都是通过url来获取pdf的例子，而我在做项目的时候，后台（Python）要求是发pdf的数据流给前台，前台接收pdf的buffer,然后通过pdf.js来渲染。当然最初尝试buffer出现了很多问题，具体问题总结如下：

1）如何通过$.ajax接收后台发给前台的buffer数据；

2）如何将buffer传给pdf.js来处理（这里我使用了viewer.js, 所以需要考虑的是如何将buffer传给viewer.js来处理）；

3）如何将pdf.js转换成pdf.js可以接收的buffer格式；

（对应问题解决见代码注释）

注：viewer.js是pdf.js的扩展，其将打印、翻页、缩放等功能进行了实现，且界面非常好看。也就是说如果你引入了viewer.js，pdf的渲染和渲染之后的功能界面都已经帮你实现了，你不用自己去写界面。

先从官网：http://mozilla.github.io/pdf.js/ 下载代码，然后使用文件viewer.html
, 我的html就是在viewer.html 的基础上修改的，下面我给出buffer的例子：

<!DOCTYPE html>
<html dir="ltr" mozdisallowselectionprint moznomarginboxes>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
<meta name="google" content="notranslate">
<title>在线预览</title>
{% load static %}{% get_static_prefix as STATIC_URL %}
<link href="{{STATIC_URL}}css/preview.css" rel="stylesheet" type="text/css" />
<link rel="stylesheet" href="{{STATIC_URL}}pdfjs/web/viewer.css"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/compatibility.js"></script>
<link rel="resource" type="application/l10n" href="{{STATIC_URL}}pdfjs/web/locale/locale.properties"/>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/l10n.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/build/pdf.js"></script>
<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/debugger.js"></script>
<script src="{{STATIC_URL}}js/jquery-1.8.3.js" type="text/javascript"></script>
<script type="text/javascript">

//convertDataURIToBinary()

//不知道什么原因如果后台直接将pdf的数据流发给前台，得到的是乱码，将数据转换成 Uint8Array始终不成功

//所以就让后台将发送之前的数据流做了base64编码发给前台，前台再解码得到的数据就不是乱码了。

var BASE64_MARKER = ';base64,';

var preFileId = {{mark}};

//viewer.js全局变量,传入buffer，回答问题2
var DEFAULT_URL

$(document).ready(function(){
$.ajax({
type:"post",
async: false,

//ajax接收pdf数据流，注意dataType值的设置是否有错，如果不指定，jQuery将自动根据HTTP包MIME信息返回

//responseXML或responseText
. 回答问题1
contentType:"application/pdf;charset=utf-8",
url:"{% url netPan.File.views.browserFuf%}",
data:{
id: preFileId
},
success:function(data){
var pdfAsDataUri = data;

//如果引入了viewer.js , 处理方法
var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);
DEFAULT_URL = pdfAsArray;

// 只引入了pdf.js, 未引入viewer.js，处理方法

// var pdfAsArray = convertDataURIToBinary(pdfAsDataUri);

// PDFJS.getDocument（pdfAsArray).then(); 自己写pdf的处理函数

}
});
});

function convertDataURIToBinary(dataURI) { //编码转换，回答问题3

var base64Index = dataURI.indexOf(BASE64_MARKER) + BASE64_MARKER.length;
var base64 = dataURI.substring(base64Index);
var raw = window.atob(base64);
var rawLength = raw.length;

//转换成pdf.js能直接解析的Uint8Array类型,见pdf.js-4068
var array = new Uint8Array(new ArrayBuffer(rawLength));

for(i = 0; i < rawLength; i++) {
array[i] = raw.charCodeAt(i);
}
return array;
}
</script>


<script type="text/javascript" src="{{STATIC_URL}}pdfjs/web/viewer.js"></script>
</head>

<body>

省略内容

</body>

</html>

㈣ ASP截取字符串问题（在代码中截取http://***/***/***.pdf部分）

jquery 有专门的选择器选择所有带.pdf的链接。

㈤ jquery 根据获取到的src的值更改此标签的样式

$("img").each(function(i){
	varsrc=$(this).attr('src');
	if(src.indexOf('xls')>-1||src.indexOf('pdf')>-1||src.indexOf('doc')>-1){
		$(this).css('width','auto');
	}
}

㈥ c# 实现word转换成pdf (带图片的word)

usingWord=Microsoft.Office.Interop.Word;//引入空间，设置互操作，注意版本12.0.0.0，官方的还有个14.0.0.0的，我用的是12，可正常生成。
publicboolDOCToPDF(stringsourcePath,stringtargetPath)


}//enddoc

㈦ PDF总是崩溃

可能你使用的PDF软件有问题，重装PDF应用软件，或者换一个软件试试。因不知道你是用的PDF软件到底是哪一个，目前只能给你这点建议。如有可能请详述崩溃的现象。

㈧ asp.net中，gridview中的数据能不能导出成pdf格式的文件

system.web.ui.control
ctl=this.datagrid1;
//datagrid1是你在窗体中拖放的控件
httpcontext.current.response.appendheader("content-disposition","attachment;filename=excel.xls");
httpcontext.current.response.charset
="utf-8";
httpcontext.current.response.contentencoding
=system.text.encoding.default;
httpcontext.current.response.contenttype
="application/ms-excel";
ctl.page.enableviewstate
=false;
system.io.stringwriter
tw
=
new
system.io.stringwriter()
;
system.web.ui.htmltextwriter
hw
=
new
system.web.ui.htmltextwriter
(tw);
ctl.rendercontrol(hw);
httpcontext.current.response.write(tw.tostring());
httpcontext.current.response.end();

㈨如何将pdf格式文件转换成word格式文件

1.Office组件把PDF转成Word：
可以利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档，也就是说利用WORD来完成该任务。方法如下：

用Adobe Reader打开想转换的PDF文件，接下来选择“文件→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”，确认后将该PDF文件输出为MDI格式的虚拟打印文件。

注:如果没有找到“Microsoft Office Document Image Writer”项，使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件，选中“Office 工具 Microsoft DRAW转换器”。

然后，运行“Microsoft Office Document Imaging”，并利用它来打开刚才保存的MDI文件，选择“工具→将文本发送到Word”菜单，在弹出的窗口中选中“在输出时保持图片版式不变”，确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”，不管它，确认即可。

注:对PDF转DOC的识别率不是特别完美，转换后会丢失原来的排版格式，所以转换后还需要手工对其进行排版和校对工作。

以上仅在word2003中可用，其他版本没有Microsoft Office Document Image Writer。

2.利用第三方工具软件：
ScanSoft PDF Converter For Microsoft Word
下载地址：
http://www.mydown.com/soft/245/245551.html

3.ASP.Net实现将Word转换PDF格式：
一:必备工具

安装必须的工具MS VS.Net2003,MS Office2003,Adobe Acrobat 7.0 Professional,postscript.exe,gs811w32.exe

MS VS.Net2003的安装不说明

MS Office2003的安装不说明

Adobe Acrobat 7.0 Professional安装说明

运行setup.exe文件,出现输入序列号,就运行注册机,用鼠标在第一行刷下就可以看见序列号，复制粘贴到Adobe Acrobat 7.0 Professional安装程序对话框，安装到最后出现注册时,点击PHONE...将安装程序中显示的第二行序列号（第一行是刚才注册机生成的序列号）复制粘贴到注册机的第二行，点击右边的按钮，再用鼠标刷第三行授权号就出来了，将其复制粘贴到安装程序的最后一行，完成安装注册！

postscript.exe默认安装就可以了,它是一个PDF转换时所需要的脚本

gs811w32.exe默认安装就可以,它其实是个PDF虚拟打印机的驱动

二:配置虚拟打印机

进入Windows的控制面板,进入打印机,点击"添加打印机"图标.在安装对话框上"按一步",出现选择打印机时,在制造商一栏中选择"Generic",在打印机一栏中,选择"MS Publisher Color Printer",然后一路按下一步,知道安装结束.

三:开始写第一个程序(脚本程序)

为什么要使用脚本程序进行转换呢,其实实际测试过程中,使用PDF Distiller的对象引用到C#后,转换成功,但整个PDF Distiller对象不能释放,第二次再转换时,就发生了错误,故此处使用脚本程序实现转换.这样我们只要在C#的程序中调用脚本程序就可以实现WORD到PDF的转换。

宿主脚本文件名:ConvertDoc2PDF.js

脚本文件内容:

var files = WScript.Arguments;
var fso = new ActiveXObject("Scripting.FileSystemObject");
var word = new ActiveXObject("Word.Application");
var PDF = new ActiveXObject("PDFDistiller.PDFDistiller.1");
word.ActivePrinter = "MS Publisher Color Printer";

//files(0) 为WORD文档文件名
//files(1) 为,转换后需要保存的路径
//调用fso.GetBaseName(files(0))后,为无路径,无扩展名,的文件名
//files.length为文件参数的个数,使用循环可以支持多个WORD文档的转换

var docfile = files(0);
var psfile = files(1) + fso.GetBaseName(files(0)) + ".ps";
var pdffile = files(1) + fso.GetBaseName(files(0)) + ".pdf";
var logfile = files(1) + fso.GetBaseName(files(0)) + ".log";

try{
var doc = word.Documents.Open(docfile);
//WORD文件转成PS文件;
word.PrintOut(false, false, 0, psfile);
doc.Close(0);

//PS文件转成PDF文件;
PDF.FileToPDF(psfile,pdffile,"");

fso.GetFile(psfile).Delete();//删除PS脚本文件
fso.GetFile(logfile).Delete();//删除转换的日志文件

word.Quit();
WScript.Echo("isuccess");//成功
WScript.Quit(0);
}
catch(x)
{
word.Quit();
WScript.Echo("isfail");//失败
WScript.Quit(0);
}

然后测试该脚本程序

启动MS-DOS,输入如下命令:

c:\>cscript //nologo c:\ConvertDoc2PDF.js c:\test.doc c:\

说明:

运行成功后将看到test.pdf文档了

c:\test.doc参数对应的是脚本程序中的files(0)

c:\参数对应的是脚本程序中的files(1)

你可以安照该脚本改写成,支持多个参数,使用FOR循环,一次转换多个WORD文档,此处没有使用多个文件转换功能,是考虑到,该段脚本放在C#的线程中执行,这样一来也可以转换多个WORD文档.

四:使用C#调用ConvertDoc2PDF.js脚本

新建一个C#的WINDOWS应用程序,添加一个按钮button1

添加一个函数,函数名StartConvertPDF

public void StartConvertPDF()
{
Process proc = new Process();
proc.StartInfo.FileName = "cmd.exe";
proc.StartInfo.WorkingDirectory = @"c:\";
proc.StartInfo.CreateNoWindow = true;
proc.StartInfo.UseShellExecute = false;
proc.StartInfo.RedirectStandardInput = true; //输入重定向

proc.Start();
proc.StandardInput.WriteLine(@"cscript //nologo c:\ConvertDoc2PDF.js c:\test.doc c:\");
proc.StandardInput.WriteLine("exit");
proc.WaitForExit();
}

然后在按钮的CLICK事件中添加调用线程的代码

private void button1_Click(object sender, System.EventArgs e)
{
//定义线程序
Thread thConvert = new Thread(new ThreadStart(StartConvertData));
thConvert.Start();
}

注意:在测试上面的C#程序时,必须添加如下命名空间

using System.Diagnostics;
using System.Threading;

五:健壮的C#调用代码(实际考虑,可放在B/S系统中)

完成第4步的C#测试后,细心的读者,可能看到一点问题,那就是如何得到脚本运行后输出的结果,如何给线程中调用的StartConvertData方法传递参数

1:传递参数,此话说来也可用一篇教程告诉大家线程中方法如何来传递参数,现在就讲一个方案,此种方案很多,我采用一个类,初始化这个类,然后调用该类的方法作为线程执行的方法

2:得到脚本的输出结果,使用Process对象的输出重定向,就是说改变输出方向,使脚本不输出到控制台(MS-DOS窗口),而是重定向输出到C#程序中,并采用线程的异步回调方法,显示脚本运行结果。

添加一个新类,类名为ToPdf

using System;
using System.Diagnostics;
using System.ComponentModel;
using System.Windows.Forms;
using System.Data;

namespace Doc2Pdf
{
public class ToPdf
{
private string strWord = "";//此处的WORD文件不含路径
private string sPath = "";
public string sExecResult = "";
public bool bSuccess = false;

public ToPdf(string sParamWord,string sParamPath)
{
strWord = sParamWord;
sPath = sParamPath;
}

public void StartConvertPDF()
{
Process proc = new Process();
proc.StartInfo.FileName = "cmd.exe";
proc.StartInfo.WorkingDirectory = sPath;
proc.StartInfo.CreateNoWindow = true;
proc.StartInfo.UseShellExecute = false;
proc.StartInfo.RedirectStandardInput = true;//标准输入重定向
proc.StartInfo.RedirectStandardOutput = true;//标准输出重定向

proc.Start();
proc.StandardInput.WriteLine("cscript //nologo "+sPath+"ConvertDoc2PDF.js "+sPath+strWord+ " "+sPath);
proc.StandardInput.WriteLine("exit");
sExecResult = proc.StandardOutput.ReadToEnd();//返回脚本执行的结果
proc.WaitForExit();
proc.Close();

}

public void EndConvertPDF(System.IAsyncResult ar)//ar参数必须写,是线程执行完成后的回调函数
{
if(sExecResult.IndexOf("isuccess")!=-1)bSuccess=true;
else if(sExecResult.IndexOf("isfail")!=-1)bSuccess=false;
//如果放在B/S系统,你可以在此处写数据库,是成功还是失败,并用一个WEBService程序不断检查数据库,此WEBService程序不放在该回调用函数中
//如果放在C/S系统,回调函数可以不放在类中,以便在窗体程序中调用结果
}
}
}

改写原来的button1_Click事件中的代码

private void button1_Click(object sender, System.EventArgs e)
{
ToPdf my2Pdf = new ToPdf("test.doc","c:\\");
ThreadStart thStartConvert = new ThreadStart(my2Pdf.StartConvertPDF); //开始异步调用线程
thStartConvert.BeginInvoke(new AsyncCallback(my2Pdf.EndConvertPDF),null);//设置异步线程的回调函数

//如果需要转换多个WORD,你可以用循环
//如果是B/S系统,可以将本段代码放在ASPX中,并结合客户端的无刷新显示数据的技术,不断访问WEBService程序,以确定PDF是否转换成功或失败
}

六:编写更加健壮的C#调用代码(实际考虑,可放在WINDOWS的服务程序中)

实际使用时,由于转化PDF时CPU的占用率很高,考虑只在同一时间转换一篇WORD文档,放弃异步线程的回调函数的使用,考虑一个WINDOWS的服务程序。

写一个函数CheckData2Convert(),不断的检查没有转换的WORD文档,并使用循环调用ToPdf类中执行转换方法StartConvertPDF

//以下给出,泛代码,用户按照自己的需求,填写完整即可
//bool bStart为全局变量,控制循环的进入与退出
//例:18:30开始检查并转换,那么18:30时,bStart=true;并启动转换线程
//6:30停止转换线程,bStart=fasle;

private void CheckData2Convert()
{
//检查指定目录下的没有转换的WORD文档,你同样可以检查数据库中记录的没有转换的WORD文档
string sPath = System.Threading.Thread.GetDomain().BaseDirectory; //当前的路径
while(bStart)
{
int iFileCount = CheckWord(); //CheckWord为一个方法,检查当前没有转换的WORD文档,返回没有转换的文件数,该方法的代码由读者自己编写
for(int i=0;i<iFileCount;i++)
{
string sWord = GetWordFileName(i) //GetWordFileName为一个方法,返回一个不带路径的WORD文件名,该方法的代码由读者自己编写
//ToPdf类中的StartConvertPDF()方法使用的是不带路径的WORD文件名
ToPdf my2Pdf = new ToPdf(sWord ,sPath);
my2Pdf.StartConvertPDF();

if(my2Pdf.sExecResult.IndexOf("isuccess")!=-1)
{
//成功,写日志,或回写数据库
}
else if(my2Pdf.sExecResult.IndexOf("isfail")!=-1)
{
//失败,写日志,或回写数据库
}

}

if(!bStart)break;
Thread.Sleep(1000);
}
}

然后在服务的开始事件中,启动线程

protected override void OnStart(string[] args)
{
//可以使用一个开始定时器,检查是否到开始时间,时间一到,就开始执行线程,此处的开始执行线程可以放在开始定时事件中
//可以使用一个结束定时器,检查是否到结束时间,时间一到,就结束线程,结束线程的代码可以放在结束定时事件中
//注意:应该使用组件中的定时器,而不是Windows的FORMS中的定时器
//该定时器的类名为System.Timers.Timer,千万别搞错,不然执行不会正常的
bStart = true;
Thread thConvert = new Thread(new ThreadStart(StartConvertData));
thConvert.Start();
}

然后在服务的结束事件中,设置停止线程的标识bStart= false

protected override void OnStop()
{
bStart = false;
//为何次处不停止线程呢,因为考虑到,现在线程正在转换WORD文档,但没有结束,所以只设置停止标识,转换完成后,线程也执行结束了.
}

㈩求C#高手::如何用c#程序将pdf文件转换成excel文件

PDF文件读取出来内容顺序容易混乱，再插入到Excel很难保持原格式，我用的Spire.PDF库转换，基本上能保持格式
using Spire.Pdf;
namespace ConvertPDFToExcel
{
class Program
{
static void Main(string[] args)
{
PdfDocument pdf = new PdfDocument();
//加载PDF
pdf.LoadFromFile("测试.pdf");
//保存为Excel
pdf.SaveToFile("PDFToExcel.xlsx", FileFormat.XLSX);
}
}
}

导航:首页 > 文档加密 > indexofpdf

indexofpdf

与indexofpdf相关的资料