1. 如何将html页面转成pdf
1安装Adobe Acrobat后会默认在IE浏览器中添加PDF工具栏。
该工具可以方便的将网页转化成PDF文档,或者添加入已有的PDF文档,Adobe PDF Explorer工具栏则可以在IE的收藏夹界面内管理window内的HTML文档与PDF文档的转化。
2、安装单独的pdf虚拟打印机(pdffactory、ultra pdf等),通过网页的打印功能转换。
3使用客户端软件HTML2PDF_Pilot。
HTML2PDF_Pilot的截面如上图,很简洁。
如果只是要完成最简单的工作只需如箭头所示,点击上方的添加按钮添加HTML文档然后点击转换,稍等既可以完成一个HTML文档的转化工作。
两种方法的比较
灵活性:
PDF工具栏的方式相比客户端的方式要灵活许多。
在使用的过程中发现HTML2PDF_Pilot不能通过URL(网址)直接转化PDF文档,而工具栏只需在浏览的过程随意使用。
功能:在功能的环节上,客户端方式的HTML2PDF_Pilot就明显要比PDF工具栏要强大许多
工具栏只提供了最基本的保存和添加入已有文档的功能,而HTML2PDF_Pilot则提供了更为丰富的选项。
另外,如果需要批量转化网页文件的话,工具栏的方式也无法提供对应的功能。
其实还是有很多可以选择的方式,比如把网页转化为WORD的文件格式然后通过WPS软件来转化文档等,只要能灵活运用,html文件转PDF是非常简单的事情。
2. 怎么用php在HTML中生成PDF文件
FPDF是一个允许使用纯PHP生成PDF文档的PHP类,换句话说,没有使用PDFlib 函数库。FPDF中的F代表免费和自由:你可以在任何情况下使用,并且支持自定义,来满足你特定的需求,特点:
1、可以选择单元、页面格式和边距
2、可以管理页眉和页脚
3、自动分页
4、自动换行和文本对齐
5、支持图片(JPEG,PNG,gif)
6、色彩丰富,支持链接
顺便也介绍一些可以直接从HTML生成PDF的函数库。
DomPDF
domPDF将HTML转换为PDF。DomPDF遵循CSS2.1的HTML布局,它是用PHP编写的渲染引擎。DomPDF以样式为主导:它会下载并读取外链样式表,内联样式和HTML元素的style属性值。并且还支持大部分的HTML可见属性。
特点:
1、处理大部分CSS2.1和少许CSS3属性,包括@import, @media & @page 规则
2、支持大部分HTML 4.1的可见属性
3、支持外部样式表,包括本地或者http/ftp链接的(通过fopen-wrappers)
4、支持复杂的表结构,包括行和列的span,separate & collapsed border models和独立的cell样式
5、支持图片(gif, png, bmp & jpeg)
6、不依赖于其他的PDF函数库
TCPDF
TCPDF也可以用于生成PDF文档,并且它是一个开源的PHP类库。
TCPDF项目开始于2002年,现在已经被成千上万的人自由使用。TCPDF is a Free Libre Open Source Software (FLOSS).
特点:
1、基本功能不依赖于其他PDF函数库
2、标准页面格式、支持页面格式自定义、边距自定义和单元计量
3、支持UTF-8编码和文字方向从右到左的语言。
4、支持TrueTypeUnicode, OpenTypeUnicode, TrueType, OpenType, Type1 and CID-0等字体
5、支持字体子集,并提供方法发布一些XHTML + CSS code, Javascript and Forms
6、支持图片和图形的转换
7、支持页面压缩(需要php-zlib扩展)
8、自动管理页眉和页脚
3. Python写爬虫都用到什么库
Python爬虫,全称Python网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或脚本,主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等,Python为支持网络爬虫正常功能实现,内置了大量的库,主要有几种类型。下面本篇文章就来给大家介绍。
一、Python爬虫网络库
Python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。
二、Python网络爬虫框架
Python网络爬虫框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。
三、HTML/XML解析器?
●lxml:C语言编写高效HTML/ XML处理库。支持XPath。
●cssselect:解析DOM树和CSS选择器。
●pyquery:解析DOM树和jQuery选择器。
●BeautifulSoup:低效HTML/ XML处理库,纯Python实现。
●html5lib:根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。
●feedparser:解析RSS/ATOM feeds。
●MarkupSafe:为XML/HTML/XHTML提供了安全转义的字符串。
●xmltodict:一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。
●xhtml2pdf:将HTML/CSS转换为PDF。
●untangle:轻松实现将XML文件转换为Python对象。
四、文本处理
用于解析和操作简单文本的库。
●difflib:(Python标准库)帮助进行差异化比较。
●Levenshtein:快速计算Levenshtein距离和字符串相似度。
●fuzzywuzzy:模糊字符串匹配。
●esmre:正则表达式加速器。
●ftfy:自动整理Unicode文本,减少碎片化。
五、特定格式文件处理
解析和处理特定文本格式的库。
●tablib:一个把数据导出为XLS、CSV、JSON、YAML等格式的模块。
●textract:从各种文件中提取文本,比如 Word、PowerPoint、PDF等。
●messytables:解析混乱的表格数据的工具。
●rows:一个常用数据接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT:将来还会提供更多!)。
4. 初学前端有什么推荐的书籍
初学者入门书籍:
中文电子书
深入浅出htmlpdf中文版
魅丽的网页设计
Web程序设计(第5版)完整版
HTML&XHTML权威指南(英文+中文版)
Web编程入门经典:HTML、XHTML和CSS(第2版)
CSS商业网站布局之道(朱印宏着)
HTML与CSS入门经典(第7版)
EricMeyer谈CSS(卷1)
EricMeyer谈CSS(卷2)
无懈可击的Web设计
XHTML实例精解
XHTML技术内幕
HTML简明教程中文PDF版
DynamicHTML权威指南第3版
XML基础教程入门、DOM、AJAX与FLASH(SasJacobs[美]着)
网页视觉设计案例教程
英文原文电子书
DiveIntoHTML5
HTML5.and.CSS3:DevelopwithTomorrow'sStandardsToday
HTML5StepbyStep
BeginningHTMLwithCSSandXHTML
BeginningCSSWebDevelopment从入门到精通
CSSWebDevelopment从入门到精通
HTML,XHTML,andCSS-VisualQuickstartGuide第六版
深入浅出HTML(英文版)
Transcending.CSS(英文版)
完美HTML设计-使用CSS不用Table(第二版)
HTML,XHTML,andCSSBible,5thEdition
CSS禅意花园(高级CSS开发)
O'ReillyCSS:TheDefinitiveGuide第三版(CSS权威指南)
(5thEdition)
HTML5andCSS3:DevelopwithTomorrow'sStandardsToday
WroxWebStandardsProgrammer'sReference
SpringintoHTMLandCSS
HTML&XHTML-TheCompleteReference第四版
XHTMLMovingtowardXML
MasteringIntegratedHTMLandCSS
BuildyourOwnWebSite-TheRightWayUsingHTMLandCSS
HeadFirstHTMLwithCSS&XHTML
TheCSSAnthology(第三版)
TheCSSAnthology(第二版)
TeachYourselfHTMLin10Minutes第四版
UltimateHTMLReference
高级进阶电子书:
中文电子书
HTML5高级程序设计(完整版)
css3_for_web_designers
CSS精粹(第3版)
CSSWeb设计高级教程第2版
大巧不工-WEB前端设计修炼之道
博客园精华集Web标准之道
编写高质量代码-Web前端开发修炼之道(完整版)
变幻之美——Div+CSS网页布局揭秘(案例实战篇)
Web导航设计
Web表单设计:点石成金的艺术
精通XHTML程序设计高级编程
彻底设计研究CSS
CSS时尚编程百例
英文原文电子书
Don'tMakeMeThink!
ProfessionalCSS:第二版
TheBookofCSS3:ADeveloper’sGuidetotheFutureofWebDesign
AccessibleXHTMLandCSSWebSites:Problem-Design-Solution
HowtoDoEverythingWithHTML
O'ReillyCSSCookbook
ABookApartCSS3ForWebDesigners
SpeedUpYourSite:WebSiteOptimization
O
BeginningCSS:
TheUltimateCSSReference
WroxCSSInstantResults
CSSMastery:AdvancedWebStandardsSolutions
CreatingCoolWebSiteswithHTML,XHTML,andCSS
BeginningHTMLwithCSSandXHTML:ModernGuideandReference
AccessibleXHTMLandCSSWebSites
O'ReillyCSSTheMissingManual
WileyCreatingWebSitesBible
ProCSSforHighTrafficWebsites
HTMLManualofStyle4th
O'ReillyHTML5:UpandRunning
StunningCSS3:Aproject-basedguidetothelatestinCSS
CanvasPocketReference:ScriptedGraphicsforHTML5
Apress.Pro.HTML5.Programming.Sep.2010
ProCSSTechniques
W3C官方手册:
CSS完全参考手册3.0
xHTML完全参考手册5合1W3C官方权威手册
HTML4.01规范-W3C官方HTML权威指南
HTML4.0参考手册CHM
W3CHTML3.2规范
CSS2权威W3C官方参考手册CHM
css手册2.03.0
5. Python编程网页爬虫工具集介绍
【导语】对于一个软件工程开发项目来说,一定是从获取数据开始的。不管文本怎么处理,机器学习和数据发掘,都需求数据,除了通过一些途径购买或许下载的专业数据外,常常需求咱们自己着手爬数据,爬虫就显得格外重要,那么Python编程网页爬虫东西集有哪些呢?下面就来给大家一一介绍一下。
1、 Beautiful Soup
客观的说,Beautifu Soup不完满是一套爬虫东西,需求协作urllib运用,而是一套HTML / XML数据分析,清洗和获取东西。
2、Scrapy
Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework
for
Python.信不少同学都有耳闻,课程图谱中的许多课程都是依托Scrapy抓去的,这方面的介绍文章有许多,引荐大牛pluskid早年的一篇文章:《Scrapy
轻松定制网络爬虫》,历久弥新。
3、 Python-Goose
Goose最早是用Java写得,后来用Scala重写,是一个Scala项目。Python-Goose用Python重写,依靠了Beautiful
Soup。给定一个文章的URL, 获取文章的标题和内容很便利,用起来非常nice。
以上就是Python编程网页爬虫工具集介绍,希望对于进行Python编程的大家能有所帮助,当然Python编程学习不止需要进行工具学习,还有很多的编程知识,也需要好好学起来哦,加油!
6. 初学前端有什么推荐的书籍
一、《Web前端开发最佳实践》
这本书是前端开发领域的经典之作,是一本扎实前端基本功,规范我们前端代码的实践性书籍。本书主要讲解了HTML、CSS、Javascript以及移动端开发的最佳实践方案,能够对缺乏良好指导的开发者产生很大的帮助。通过阅读本书我们可以掌握如何编写高可读性、高维护性、高性能的HTML、CSS以及Javascript。
二、《CSS那些事儿》
内容介绍:《CSS那些事儿》是2009年电子工业出版社出版的图书,作者是林小志。该书通过对CSS技巧实例进行讲解,浅入深地分析了CSS相关知识。
通过页面中的文字、图片、表格、表单等常见元素的处理及各种页面布局方式的使用,使读者能深入了解到如何在页面中更好地运用CSS布局。尤其是在页面布局的部分中,全面分析了多种布局方式,着重分解了两列等高和三列等高的几种方式,并相应说明了等高布局的优缺点。
八、高性能网站建设指南
内容介绍:《高性能网站建设指南》结合Web2.0以来Web开发领域的最新形势和特点,介绍了网站性能问题的现状、产生的原因,以及改善或解决性能问题的原则、技术技巧和最佳实践。重点关注网页的行为特征,阐释优化Ajax、CSS、JavaScript、Flash和图片处理等要素的技术,全面涵盖浏览器端性能问题的方方面面。