A. python 的中文谐音是什么
Python =派上(美国发音)
Python =派份(英国发音)
B. 求问Python中IndexError: list index out of range怎么解决只能写入9个网络爬取的数据
Traceback (most recent call last):
File "D:\Program Files (x86)\JetBrains\PyCharm Ecational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 66, in <mole>
globals = run_file(file, None, None)
File "D:\Program Files (x86)\JetBrains\PyCharm Ecational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 28, in run_file
pydev_imports.execfile(file, globals, locals) # execute the script
File "D:/python/xpth/xpathPractice.py", line 51, in <mole>
results = pool.map(spider, page)
File "D:\anzhuang\Anaconda\lib\multiprocessing\pool.py", line 251, in map
return self.map_async(func, iterable, chunksize).get()
File "D:\anzhuang\Anaconda\lib\multiprocessing\pool.py", line 558, in get
raise self._value
IndexError: list index out of
出现如上所示的错误:
IndexError 下标索引超出序列边界,比如当x只有三个元素,却试图访问x[5]
C. 制作桑基图可以用什么数据工具
一、桑基图的图表要求是2个维度和1个数值,比如这里选择的维度:日期&购买状态,数值:用户ID;
二、桑基图操作步骤
1、在“工作表”页面上传需要分析的工作表数据,或者直接选用数据库或第三方平台的文件数据,在需要分析的工作表数据右上方点击“新建图表”;只要想要BDP进行分析,这步操作都少不了哦,了,就不多废话啦~
D. 有什么数据工具可以制作桑基图
DataHunter的Data Analytics
桑基图的适用场景?
作为一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小。在互联网领域,桑基图主要用于用户流量等数据可视化分析,一个非常典型的场景是电商分析客户从进入商品详情、加入购物车、下单、付款、收货流程的数据流量。除此之外,桑基图在销售、财务等领域也有应用。
如何快速制作桑基图?
场景还原:某公司销售主管想查看09年-12年之间,销售额与运输方式、销售区域等之间的具体关系。
如果借助散点图,则只能查看相关性却看不出销售额的具体流动;
如果借助双轴图等,则在展现维度上会受到限制;
综合考虑,最终决定使用桑基图来展现销售额与各种维度之间的流动关系。
1、数据准备:将Demo数据通过工作表上传到Data Analytics
最后提醒大家,桑基图是特定场景下呈现流量关系与结构对比所使用的,不要因为这种图表很炫酷就乱用哦,数据可视化的要义很重要的一条就是,适当的场景使用合适的图表。
E. 跪求E sankey(桑基图制作软件) V5.1.2.1 免费版软件百度云资源
Esankey(桑基图制作软件)V5.1.2.1免费版网络网盘免费下载
链接: https://pan..com/s/1rGkVNntNOLt07tXoXwtBCQ
软件名称:Esankey(桑基图制作软件)V5.1.2.1免费版
语言:简体中文
大小:141.13MB
类别:图形图像
介绍:桑基图是一种特定类型的流程图,制作过程有些麻烦,因此这里就为大家介绍esankey这款软件,可以帮助我们快速完成桑基图的制作,通过桑基图让你的工作变得清晰有条理,大大提高你的工作效率。
F. 常用的数据可视化软件有哪些
数据可视化工具:
PowerBI
Microsoft PowerBI同时提供本地和云服务。它最初是作为Excel插件引入的,不久PowerBI凭借其强大的功能开始普及。目前,它被视为商业分析领域的软件领导者。它提供了数据可视化和bi功能,使用户可以轻松地以更低的成本实现快速,明智的决策,用户可协作并共享自定义的仪表板和交互式报告。
Solver
Solver是一家专业的企业绩效管理(CPM)软件公司。Solver致力于通过获取可提升公司盈利能力的所有数据源来提供世界一流的财务报告、预算方案和财务分析。其软件BI360可用于云计算和本地部署,它专注于四个关键的分析领域,包括财务报告、预算、仪表板和数据仓库。
Qlik
Qlik是一种自助式数据分析和可视化工具。它具有可视化仪表板,可简化数据分析,并帮助公司快速制定业务决策。
Tableau Public
Tableau 是一个交互式数据可视化工具。不像大多数可视化工具那样需要编写脚本,Tableau的简便性可以帮助新手降低使用难度。只需托拉拽的简单操作使数据分析轻松完成。他们也有一个“新手入门工具包”和丰富的培训资料,可帮助用户创建创更多的分析报告。
谷歌Fusion Tables
Fusion Table 是谷歌提供的数据管理平台。你可以使用它来做数据收集、数据可视化和数据共享。他就像电子数据表,但功能更强大更专业。你可以通过添加CSV、KML和电子表格中的数据集和同事共享资料。你还可以发布数据资料并将其嵌入到其他网页属性中。
Infogram
Infogram是一种直观的可视化工具,可帮助你创建精美的信息图表和报告。它提供了超过35个交互式图表和500多个地图,帮助你可视化数据。除了各种各样的图表,还有柱状图、条形图、饼图或词云等,它用创新的信息图表给你留下深刻印象。
G. 数据可视化通过哪些方式让数据展现的更直观
数据可视化的一般流程
首先我们需要对我们现有的数据进行分析,得出自己的结论,明确要表达的信息和主题(即你通过图表要说明什么问题)。然后根据这个目的在现有的或你知道的图表信息库中选择能够满足你目标的图表。最后开始动手制作图表,并对图表进行美化、检查,直至最后图表完成。
这里我们容易犯的一个错误是:先设想要达到的可视化效果,然后在去寻找相应的数据。这样经常会造成:“现有的数据不能够做出事先设想的可视化效果,或者是想要制作理想的图表需要获取更多的数据。”这样的误区。
常用的可视化工具
1、Microsoft Excel
对于这个软件大家应该并不陌生,对于一般的可视化这个软件完全足矣,但是对于一些数据量较大的数据则不太适合。
2、Google Spreadsheets
Google Spreadsheets是基于Web的应用程序,它允许使用者创建、更新和修改表格并在线实时分享数据。基于Ajax的程序和微软的Excel和CSV(逗号分隔值)文件是兼容的。表格也可以以超文本链接标记语言(HTML)的格式保存。
3、Tableau Software
Tableau Software现在比较受大家的欢迎,既可以超越Excel做一些稍微复杂的数据分析,又不用像R、Python那种编程语言进行可视化那么复杂。好多人都有推荐这款软件。
4、一些需要编程性语言的工具
R语言、JavaScript、HTML、SVG、CSS、Processing、Python。这里主要是列举一下有哪些编程语言可以实现可视化,具体如何实现需要读者自行学习。
H. python里的input怎么截取部分信息呀
info = input('Please input something:\n')for x in info: if x.isdigit(): print x 注意,我用的python3.3.5,没有raw_input,如果你用的python版本支持raw_input,可以把input换成raw_input. 希望能帮到你,有疑问请追问!
I. 深入浅出丨带你看懂数据可视化“美”的历程
深入浅出丨带你看懂数据可视化“美”的历程
古人说:“人不可貌相”,但从古至今,人类却是一群感性动物,容易受到外在表象影响,先感性才理性。
《韩非子》里提到,春秋末期鲁国人澹台灭明,天生异像,“额低口窄,鼻梁低矮,不具大器形貌”,拜孔子为师,孔子没有拒绝,但对他不上心,爱答不理,让他坐冷板凳。于是,他毅然决然地离开孔子,自学成才,独辟蹊径,游历讲学,积极传播儒家学说,并培养出很多人才,深受老百姓爱戴。孔子听闻他的事迹之后,幡然醒悟。
在今天,好看这件事也一样是很重要的。“颜值即正义”,长得好看的人,似乎更容易受到欢迎和优待。
但古人也说过:“相由心生”,从一个人的外表和精神状态可以大概知道这个人的内在状况,相反,一个人的内心思想状态,也会投射到形象外表。
因此,我们要注重自身内在涵养的健康发展,也要学会对外在美的表达与审视。
同样地,好的设计也应该是兼具内容与形式。
信息时代让人们的生活节奏加快,人们每一天都变得匆忙,时间被碎片化,甚至没有多少时间完整看完一段文字。文字的力量是有限的。只有借助可视化,信息才能高效地传播。
数据可视化是数据领域一个重要的分支,目的是“让数据说话”,展现数据之美。好的图表会说话,好的图表可以抓住用户的心。
一、历史篇:人类对世界的认知与表达从图画开始
研究发现,人脑处理图片信息是同步进行的,而处理文字信息则是一步一步循序渐进的,而且一篇文字下来,大部分人只记住了其中的20%;人在看报纸时,99%的文字信息会自动被过滤掉,脑子里只残留了可怜的1%;人脑处理图片的速度是处理文字的6000倍。也就是说,如果一篇6000字的文章需要10分钟看完,而压缩成一张图片则只需要10/6000分钟的时间。
图片可以表达的内容要比文字更丰富,同时也可以给人留下很大的想象空间 ,可以体现真实性(有图有真相),可以让人赏心悦目。
其实,在远古时期,我们遥远的祖先——智人就已经学会画画,基于自己对周边生活环境的认知,将人、鸟、兽、草、木等事物以及狩猎、耕种、出行、征战、搏斗、祭祀甚至男女交媾等日常活动刻画在岩石上、石壁上、洞穴里......到目前为止,欧洲、亚洲、美洲、大洋洲的70多个国家150多个地区发现岩画遗址,而仅非洲和澳洲少数族群目前还存有岩画制作的传统,例如着名的岩画遗址拉斯科洞窟壁画、阿尔塔米拉洞窟壁画、大麦地岩画、拉文特岩画、平图拉斯河手洞壁画、非洲大象岩刻、将军崖岩画等。
岩画学家埃马努埃尔·阿纳蒂在《世界岩画:原初语言》一书中提到:随着智人技术水平的提高、抽象和感知能力的增强,促使了复杂语言和艺术的产生,而岩画正是这种语言的一种记录形式;目前所知的70%岩画都是狩猎采集社会的作品,剩余30%是游牧和农耕时期的作品,在这些岩画的结构中存在着共同的记忆和普遍性的认知模式。岩画是象形文字,是无文字时代的写作,是人类隐没记忆的见证。
可见,人类对世界的认知与表达是从图画开始的。
图1. 远古时代的岩画
人类造出文字之前,还经历过“结绳记事”、“图画记事”等阶段。
但随着社会的发展,人类发生了“农业革命”,不再单纯依靠狩猎为生,制造和使用工具更加娴熟,剩余产品逐渐增加,社会组织逐步成熟。这时,社会组织不断产生大量的信息,除法令条纹外,还必须记录各种交易、税收、商品库存、节假日以及打胜仗的日期等。在此之前,人类虽然可以利用图画记事,但更多的还是用自己的大脑记录信息。随着信息的大量产生,容易产生记忆过载,于是就有了文字。
象形文字是由原始的图画发展而来的。由于社会的发展,加上图画效率低,难以满足社会化需求,于是人们逐渐从图画中抽离出一个个元素,形成象形文字。象形文字是一种最原始的造字方法,纯粹利用图形来作文字使用,而这些文字又与所代表的东西在形状上很相像,图画性质减弱,象征性质增强。苏美尔楔形文字、甲骨文、古埃及象形文字、玛雅文字都是独立地从原始社会最简单的图画和花纹产生出来的。
但象形文字也有很大的局限性,因为有些实体事物和抽象事物是画不出来的,而且写起来很慢又难读懂。
图2. 世界四大古文字
随着社会的进一步发展,文字也得到了很大的发展,在象形文字的基础上逐步分化出“表音”和“表意”两种文字。文字是用来记录和传播语言的,而记录和传播只有两种途径,或“表音”,或“表意”。就汉字来说,其发展脉络大致是:结绳记事—图画文字—象形文字—形意文字—意音文字。
社会的发展,推动了文字的发展,使得人们在对事物的表达上可以更加丰富多样,可以指事、象形、形声、会意、转注、假借。人们对世界的认知和表达在广度和深度上也都有了很大的延伸。反过来,由于更多样化的文字,人们能够更加准确、生动、深刻、灵活地记录下所见所闻和所思所想,加快了知识的传播与传承,推动了社会的大发展。
文字即使再丰富,也有难以突破的局限性。文字需要理解,不能一目了然,对抽象事物及个体的表达,还不够形象、到位。因此,在出现文字之后的时代,许多文献就以图文结合的形式流传下来。例如,在1912年发现的伏尼契手稿中,字母和语言至今无人破解,但其中的植物、天体出浴美女等许多图片,甚至出现了构造精致的精美图案,一目了然,让人惊叹。
图3. 伏尼契手稿
二、发展篇:进入了“百花齐放、百家争鸣”的时代
计算机出现之前,人们已经能够灵活地运用柱形图、线图、饼图等基本图表来展示数据,而且也衍生了很多新型、创意的数据图表。
大家应该都知道南丁格尔(国际上以她的生日命名了护士节),但很多人应该不知道南丁格尔玫瑰图(下图)就是她创造的。在克里米亚战争期间,南丁格尔通过搜集数据,发现很多死亡原因并非是“战死沙场”,而是在战场外感染疾病,或是在战场上受伤,却没有得到适当的护理而致死。为了解释这个原因,降低英国士兵死亡率,她画了这个着名的图表,于1858年递交到维多利亚女王手中。(这么漂亮的图表,想必女王一定很受感动)
图4. 南丁格尔玫瑰图
世界着名的绘图大师米纳德,开创了许多重要的主题绘图技巧,改良了其他技术。他是首个把饼图和地图结合在一起的人,并将流线放入地图中。以下图表是米纳德最广为人知的作品,被EdwardTufte认为是史上最杰出的统计图。它描绘了拿破仑的军队自离开波兰-俄罗斯边界后军力损失的状况,在一张图中通过两个维度呈现了六种维度信息:拿破仑军队人数、行军距离、温度、经纬度、移动方向以及时间-地域关系。
图5. 拿破仑行军图
计算机出现后,特别是互联网的兴起,人类社会以“摩尔定律”的速度,进入一个全新的时代,科学技术也得到了前所未有的革新与发展,同时也给人们带来了很多新思维。
技术的进步,让我们能够采集到比以前多得多的信息,数据规模不断成指数量级的增长,数据的内容和类型也比以前要丰富得多,改变了人们分析和研究世界的方式,也给人们提供了新的可视化素材,推动了数据可视化领域的发展。
与以前相比,数据可视化领域发生了很多的变化,得到了很大的发展。
1. 可视化的表现形式和场景更丰富
在当今信息时代,信息出现了“泛滥”与“过载”,人们每天都受到各种信息的“轰炸”。当我们打开网页或手机APP时,首先进入我们视野的就是各种弹出的广告信息。这些信息从内容到形式,都经过了精心设计。我们走在大街上,映入我们眼球的则是满大街的广告海报,还时常有人站在街边向路人派发传单。我们不仅仅只从书上看到了可视化的图表,还从海报、信息图、PPT、数据产品、大屏等获取到了大量的可视化信息。
图6. 可视化的表现形式
2. 可视化展现方式更多样和灵活
数据图表是最常用的可视化元素。除柱形图、条形图、饼图、环形图、线图、散点图、面积图、雷达图、K线图、地图等基本图表外,现在也出现了更多新式的图表,如山峰图、雷达图、气泡图、热力图、漏斗图、树图、箱形图、瀑布图、河流图、词云图、仪表盘、南丁格尔玫瑰图、旭日图、和弦图、桑基图、3D图,等等。另外,智慧的人们也常常创意性地将各种图表混搭,例如下图,地图和饼图、散点图、柱形图等搭配使用。
图7. 各种图表的混搭
除图表外,对图片和图标的灵活运用,使得可视化更加美观、形象、贴切。
图9. 图标的灵活运用
3. 从静态到动态
由于技术的发展,实时数据采集、实时数据传输以及实时数据计算得以实现,人们终于得以欣赏到数据的灵动之美。以前人们只能看到事后数据形成的分析结果,看到的是数据的过去式,领略的是数据的静态之美。而现在,通过实时计算及数据可视化,人们可以知道“当前时刻发生了什么”,看到了数据的变化,看到了数据的动态之美。
4. 设计上更注重用户体验
由“信息泛滥”引起“信息过载”,从而导致“信息焦虑”。无论是风格、元素、配色、文字、交互上还是细节上,人们的可视化作品都越来越注重用户的视觉体验,希望能让用户一目了然,不多花一点儿时间去理解。在设计风格上,从3D拟物化到简洁扁平化再到拟物扁平化的发展变化,也在不断地为用户“做减法”。
三、原则篇:关于设计的四大原则
“别忘了,你是为读者进行可视化设计。”
——《数据之美:一本书学会可视化设计》
所有的设计细节,都必须经过精心构思,都必须站在用户角度来思考。
颜值高或者打扮好看的人,总能牢牢地吸引别人的目光,相反,衣着邋遢不修边幅的人,却往往是别人瞅一眼就嫌弃。那些聪明的人,必然深谙这样的秘诀:好看的PPT报告,总能在第一时间吸引受众,再加上生动的演讲,就会收到很多好评;广告牌做得越好,就越吸引路人的注意力,越能让路人记住,广告效果也就越好。
当你看到别人的可视化作品时,你是否总觉得不好,但怎么也说不出到底哪些地方不好?如果你熟悉以下基本原则,就算不是一个专业的设计人员,你也可以快速看出哪里出了问题并提出非常中肯的建议。如果你还能熟练运用这些原则,那你的可视化作品将焕然一新,更加专业、好看、有趣,也将收获更多读者的赞赏。
亲密性(分组)
在生活中,几乎每件事都有逻辑,人们也喜欢遵循一定的逻辑去理解世间之事,例如时间先后、空间、因果、总-分-总等逻辑结构。
在做可视化设计的时候,我们所要表达的内容一定不能是一些无序呈现,这样会给读者造成理解上的混乱。我们的可视化作品应当能够遵循多数读者所能理解的思维逻辑,将内容分成几部分按顺序一步一步地表达出来。
相同部分的内容,彼此相关,应当靠近,放在一起。这样阅读起来才能被理解成为同一单元的内容,而不是多个孤立的不相关的内容。不同部分的内容,应当明显地区隔开来,例如上下部分内容之间用一空行隔开或者间距放大。这样有助于组织信息,减少混乱,为读者提供清晰的结构。
图10. 亲密性原则
对齐
在版式布局上,任何元素的摆放,都可能会影响甚至主导用户的视觉流程。因此,任何元素都不能随意摆放,否则会造成混乱,而混乱会令人不适。对齐,使每个元素都与其它元素建立起某种视觉联系。对齐,也让可视化作品更加清晰、精巧、清爽。
对齐,不仅包括左对齐、右对齐、顶端对齐、低端对齐,还包括水平居中、垂直居中、横向分布、纵向分布,等。
图11. 对齐原则
重复/统一
我们都有“先入为主”的“陋习”,当看到与之前不和谐不一致的东西,常感突兀,甚至本能抗拒。因此,在可视化作品中反复使用一些视觉要素,建立上下文之间的联系,增加条理性,保持视觉上的统一。
任何视觉元素都可以在同一作品中重复使用,例如颜色、形状、材质、空间关系、线宽、字体、大小和图片,等等。
图12. 重复原则
对比/强调
在做可视化设计时,我们的初心是以图文的形式把所要表达的信息清晰的传递给用户,让用户一目了然,尽量不需要太多思考和理解。为了达到这个目的,我们需要强调重点,弱化次要,避免作品中所有的元素看起来重要程度都是一样的。如果所有的东西都同等重要,那就相当于所有的东西都不重要。
图13. 强调重点,弱化必要
如果你想突出某些信息要点,那就让对应的元素(字体、颜色、大小、线宽、形状、空间等)与其它元素不相同,让它们截然不同,让用户首先能够关注到它们。
图14. 对比原则
表达,力求准确、到位、简洁、易懂
当用户看到我们的可视化作品时,我们最好要保证所表达的信息能被用户正确理解。除使用上面几个原则外,我们还要附加一些辅助信息,例如文字、箭头等。在可视化作品中,文字必不可少,但篇幅要加以控制。
文字的表达,要准确、到位、简洁、易懂,要能引导用户正确地理解图表的意思,要能不引起任何歧义。
图15. 表达,要准确、到位
四、流程篇:要有数据可视化的正确姿势
没有什么比亲手创造美这件事更给人带来成就感了。
当我们满怀激动地开始数据可视化时,请不要马上钻入某个细节里,不要急着考虑用什么酷炫的图表来展现,也不要纠结于用什么颜色、什么字体。我们要有数据可视化的正确打开姿势。
不同形式的数据可视化流程有所不同,这里主要讲重要且相通的部分。
(一) 了解你的需求
关于需求,在实现之前,一定要听清楚做什么,想清楚怎么做,说清楚怎么做。
了解与分析数据可视化需求,主要围绕以下几点来展开:
1. 看什么,即哪些内容需要可视化。
很少需求方能够准确、全面地说出他们真正想要什么。他们只能描述出大概的样子,因此需要不断引导他们以明确真正详细的需求。
· 可视化的目的是什么,用户是谁,在哪里看,什么情况下看,多久看一次;
· 了解数据,看看有哪些指标,哪些指标可以直接取,哪些需要复杂计算,哪些可以实时,哪些只能离线;
· 哪些指标必须展现,哪些指标不展现,哪些指标可展现可不展现;
· 展现的维度有哪些,按时间、部门、地域、指标,看实时数据还是历史数据;
· 通过可视化,期望从中知道哪些信息,等等。
2. 谁看,即用户是谁。
如果面对的是求真务实的老板,那可能需要侧重于内容,追求逻辑的合理性和数据的准确性;如果是来访参观的贵客,那可能为了展示公司实力与形象而追求高大上的图表设计;如果是不懂技术的业务人员,在可视化时可能需要避免过于技术性。
3. 在哪里看,即有哪些可视化形式。
一次性的工作汇报,可使用PPT,如果老板嫌弃做PPT太慢,可以直接用Excel,或者其它工具,如脑图;如果为很多用户提供周期性计算的指标数据,且满足不同条件下的查看,那适合做一款数据产品或者可视化报表;向来访的贵客介绍公司情况时,如果想给客人们提供一种赏心悦目的视觉享受,用大屏可视化数据再合适不过了;如果想给公司各部门同事普及知识、介绍成果、通知活动等,做一张可视化信息图,并在线发布,图文结合,有趣生动,既吸引更多读者关注,提升阅读体验。
4. 什么情况下看。
“第一印象”肯定是重要的。用户“第一眼”感觉不好,当然就没有了然后,就不会有“第二眼”、“第三眼”,也就不会再往下看了。所以,要带给用户“第一眼”足够良好的视觉体验,就要多想想用户会在什么场景下去看你的可视化作品。
例如,打开手机,多数情形下,用户只会根据标题有选择地浏览少量文章,因此,取一个生动、有趣、亮眼的标题,比普通标题更有视觉冲击力,会让你的文章从众多内容中脱颖而出,赢得更多用户点击阅读。
图16. 取一个有吸引力的标题
例如,在企业内部(特别是人多的公司),海报、信息图形式的内容,每天都大量地以邮件地方式群发给各部门人员,或活动通知、或展现成果、或宣传典型,等等。每个员工都“信息过载”,只能阅读少量的信息。
除标题要吸引人外,还需要注意用户打开邮件的实际场景。不少用户打开这种群发邮件时,常常是下面的情况,一堆的收件人,一堆的抄送人,这已经占据了有限电脑屏幕的一部分,剩下的部分就是点击某个邮件时出现的正文内容的部分。因此,在这一区域完整显示出标题(以及内容摘要),才能吸引用户往下看。
图17. 多想想具体的场景
(二)可视化设计
可视化设计是最重要的环节。只有做好这一环节,后面的事情才会变得简单顺畅。
1. 梳逻辑
我们在阅读时,只要遇到稍微难懂的知识,基本上会本能地第一时间选择退缩,不再看下去。之所以觉得难懂,最主要是因为逻辑不清晰给我们带来理解上的困扰。逻辑就像一棵树的树干,如果我们只见树叶不见树干,就会迷失方向。因此,在可视化设计前,一定要站在用户的角度,梳理出清晰的逻辑结构。这一步,想清楚怎么做,很重要,多花点时间也没关系。
对于数据可视化来说,逻辑就是确定各部分的核心内容,以及内容之间的先后次序和关联关系,即讲什么不讲什么,先讲什么后讲什么。
把逻辑设计得简单一些,清晰一些,用户就能越快明白你的“良苦用心”。
2. 定风格
风格营造一种氛围,驱动用户沉浸式阅读。不同的风格,适合不同的用户不同的场景,例如科技、学院、活泼、严肃、可爱,等等。
3. 排版式
版式设计就是关于如何处理信息重点,因为在任何设计中,最重要的信息需要首先被注意到,然后是次要信息。
好的版式就像导盲犬,合理地对内容进行布局,适当地安排版式中的视觉流程,引导用户第一时间看到最需要被关注的部分,暗示用户“先看什么,后看什么”。
一般来说,可视化作品一般包括标题、正文、图表、说明文字等要素。版式就是基于上述提到的几个原则,确定元素之间的层次结构,合理摆放这几个要素。
4. 选图表
不是越酷炫的图表就越适合。这首先要看展现什么数据。某些图表只适合展现相应格式的数据。其次,也需要对展现数据的图表进行个性化定制,包括样式、风格、颜色、字体,使之契合上下文语境,也让图表更有温度。
不要将就而选择默认设置的图表,不要做那个“Mr.差不多”或“Ms.还行”。如果将默认设置的图表放在可视化作品中,总是显得那么突兀和不协调。另外,对默认设置的弃用,可以强迫自己不断精进,不断提升可视化的能力。
5. 调细节
对单个部分的可视化设计,并不能完全保证整体上的和谐一致。因此,回到整体,根据前面提到的几个原则,发现细节问题,对某些细节进行调整,使之整体上保持一致。例如,各部分视觉元素之间保持对齐,如标题、正文、图表等;在配色、字体或其它细节上,各部分要尽量做到统一;各部分之间要有明显的区隔,等等。
(三)指标计算
巧妇难为五米之炊。有数据,才能谈数据可视化。数据的获取、整合、计算,会占用大量的时间。这一部分工作是相对独立的。
但需要注意的是,模拟数据和真实数据是有区别的。根据模拟数据设计的图表,一定要用真实数据展现与验证,验证图表与真实数据的契合程度。例如下图,模拟数据展示的图表中各部门之间存在明显的差异,但改为用真实数据展示时,却“看起来感觉都一样”,这时候就需要调整图表的设置,凸显视觉上的差异。
图18. 用真实数据验证可视化的效果
指标的计算过程,这里略去不讲。
(四)前端开发
数据产品、大屏的可视化实现,还需要前端开发。
理论上来讲,只要设计出的图表,就一定能在前端实现。但这个可能会受到前端开发人员的技术水平和展现工具的限制。所以,可视化设计有时候需要寻求一种关于设计与实现之间的平衡。
可视化设计人员最好事先有所评估,采用复杂图表设计之前最好与开发人员沟通探讨实现的可行性。
五、工具篇:你会用Excel设计图表吗?
Excel是最常用、最基本、最灵活且最应该掌握的图表制作工具。 可以说,大多数图表样式都可以用Excel画出来。如果你认为用Excel画不出来某种样式的图表,有可能是你还未掌握Excel的高阶技巧。
Excel展现的图表是静态的,且支持的数据量比较有限。所以,如果是企业级的动态数据展现,还需要借助专业的大数据可视化工具。
专业可视化工具有很多,大致可分为三类:企业级专业可视化工具、轻量级在线可视化工具、编程式图表工具。
企业级专业可视化工具
ECharts 是国内使用率非常高的开源图表工具,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的 Canvas 类库 ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。ECharts 3 中更是加入了更多丰富的交互功能以及更多的可视化效果,并且对移动端做了深度的优化。
D3.js 是最好的开源数据可视化工具库。D3.js运行在JavaScript上,并使用HTML、CSS和SVG。 D3.js使用数据驱动的方式创建漂亮的网页。 D3.js可实现实时交互。这个JS库将数据以SVG和HTML5格式呈现,所以像IE7和8这样的旧式浏览器不能利用D3.js功能。
Tableau是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形,表格和地图。 它不仅提供了PC桌面版,还提供了服务器解决方案,可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。
轻量级在线可视化工具
BDP个人版,类似Tableau的在线免费的数据可视化分析工具,不需要破解、不需要下载安装,在线注册后就能一直使用,操作很简单,只需要拖拽。支持几十种图表类型,也支持制作数据地图(自带坐标纠偏)。除可视化之外,BDP还有数据整合、数据处理、数据分析等功能。
网络图说,基于ECharts,在线图表制作工具,采用Excel式的操作方式制作样式丰富的图表,图表自定义的选项很丰富,使数据呈现的方式更加美观个性,易分享传播。
文图主要用在你要出一份包含文字说明的报告时使用,提供几个确定好风格配色的主题供选择,让整个报告风格统一、简洁美观!文图能够良好地适配移动端。但文图的排版不是很好用。
创客贴,在线平面设计工具,简单,快速,轻松完成在线设计,据说是2016最好的在线设计网站。
编程式图表工具
对于掌握编程语言的程序员来说,设计新颖、令人惊艳的数据图表也可以通过代码来实现。
Python有很多具有画图功能的包,如matplotlib、Seaborn、ggplot、Bokeh、pygal、Plotly、Geoplotlib、Gleam、missingno、Leather,等等。
R语言提供了很多数据可视化工具包,例如ggplot2、ggthemes、ggmap、ggiraph、ggstance、GGally、gganimate、ggradar、ggTimeSeries、ggseas、lattice、rgl、ggvis、htmlwidgets、leaflet、dygraphs,等等。
类似提供强大绘图编程功能的语言还有PHP、HTML、JavaScript、CSS等。
六、技巧篇:刻意练习是提升可视化技能的唯一途径
不断练习,不断精进
提升数据可视化技能的唯一途径就是在理解可视化设计原则和方法论的基础上,不断练习,不断精进。
除此之外,还要有点完美主义。
技巧在于平时的积累。多观察,生活中看到好的设计,多想想为什么人家设计那么好,让你忍不住多看几眼。看到不好的设计,多想想到底哪里不好。看到好看的图表,看到别人介绍的小技巧,动手做一做。
技巧太多,这里不做展开细讲。
“去设施倾向”
“这是章北海看到的另一个以前很少有人想象到的现代技术特色——去设施倾向。这种倾向在地球上还只是初露端倪,但‘去设施化’已成为比地球世界更先进的舰队世界的基本结构。这个世界到处都是简洁空荡的,几乎见不到任何设施,只有在需要时,设施才会出现,而且是在任何需要的位置出现。世界在被技术复杂化后,正在重新变得简洁起来,技术被深深地隐藏在现实的后面。”
——《三体》
科幻小说《三体》里面的这段话,给了我们提示。当我们做分析和可视化数据时,如果不用选项框和菜单栏时,应该隐藏起来,用到时才打开。另外,也尽量让所使用的软件最大化。这样可以让内容信息展现在最大的视野区域内,这样有助于让我们从中获取更全面的信息,指导我们下一步做正确的决策。
图19. 限的视野区域,信息最大化
颜色不宜过多,配色要合理
我们在可视化设计时,最好不要使用超过三种以上的主色调。颜色过多,无形中会分散用户的注意力,使得用户无法聚焦。
颜色的搭配要合理。大自然是最好的色彩家,可以借鉴大自然的色彩搭配。另外,如果你第一眼看到别人的设计,感觉很舒服,赏心悦目,那也可以借鉴作品中的色彩搭配。相信你的直觉,至少你的身体不会欺骗你。
图20.颜色不宜过多,配色要合理
图21.从生活和自然中学习配色技巧
J. 零基础能成为数据分析师吗
不少人后台问我,如何转行做数据分析师,或毕业生怎样入行。我之前的文章都是围绕硬技能来写,这次以我知乎上的一篇答案为基础谈一下软技能。权当做杂谈。
我进入互联网行业完全是零基础,不是数据分析零基础,是样样能力零基础。
零基础到什么样子?我找工作花了三到四个月时间,最后以运营身份入职。
我从来不是数理强人,大学虽学习过高数、统计学、SQL和C语言,均是低空略过,考试还借助了小伙伴的力量。现在回头看,当时应该多学些。
最开始我不会vlookup,也没人教我,Excel只能做基础的操作。那时要关联多张报表,我仗着手速快,一个个搜索复制黏贴的…数据量一多肯定哭。后来我想这可不是办法啊。于是借助万能的网络:
“Excel怎么匹配多张表的数据。”
然后第一次看到vlookup函数。我也没有一次学会,每次用都要先看一遍网上的样例。后续我教组员的时候,他们学得比我快多了。
Excel一步一个脚印,学习都是依赖搜索和琢磨,抽空用工作中的内容练习分析:比如什么样的用户愿意用我们APP,用户哪些指标特别好。
即使在此期间,我也不会数据透视表。
记得15年初,老板给了我一个任务:网上收集数据,大约需要几万条,我不可能全部复制黏贴下来啊,便继续查询:
如何快速下载网页上的数据。
于是知道了爬虫,知道了Python,但我并不会。最后靠第三方爬虫工具,按照教程学习。早期已经学习过HTML+CSS,然后再了解网页结构,学习Get/Post,学习正则。花了一周时间加班,才下载下来。
可没有结束,数据是脏数据,我还需要清洗。再花一周时间学习Excel的find,right,mid,replace,trim等文本处理函数。那时候不知道这叫数据清洗,但是学会了很多技巧,即使我尽可能快速省力,还是花费数天。
当我现在写Python爬虫的时候,效率快速很多。包括文本清洗,用Levenshtein速度杠杠的。加起来一晚上就搞定。
任何学习都不是无用的,很多知识相通。我因为爬虫学习了HTML+CSS,后续便触理旁通地了解了网站结构和网站分析。
后续知道布置网络统计,知道JS,学习网页端的各类指标,了解访问路径、漏斗转化、跳出率退出率等。这些知识不止能用在网站上。也能用在APP分析、用户行为上。
我们把学习当成一个点,学完这本书就看下本书,其实这样发挥不出学习的效率。任何知识都具有关联性,A知识可以应用在B知识上,知识技能树应该是呈网状发散的。
上面链条是我基于前置知识掌握新知识的关系谱。数据分析涉及的领域很宽广,除了本身扎实的业务背景,还需要瑞士军刀般的技能树,属于T型能力(一专多才)。
比如你看到某个页面跳出率较高。除了常规的分析外,还要检查网络速度,用户弱网环境,是不是HTML页面加载过多,是否使用了缓存,网络DNS如何等。这些知识不会有人教你,但它左右业务结果。
看到这里别怕,虽然要学的多,但是随着学习的加深,很多知识是共通的。就像转化率来源于网站分析,却能用于产品路径,既能升华为桑基图,又能做用户分层。越学到后面,越容易一法通万法通。
驱动力
其实零基础学习数据分析,最难的门槛不是技能,而是学习动力。我从零培养过数据分析师,从零教过Excel、从零教过SQL、从零教过分析思维、从零教过Python。难点从不在于这些知识,而是你真的想不想学。
不是下载了十几G的资料就是学习,不是关注了很多公众号就是学习。因为十几G的资料最终不会打开,很多公众号最后都是未读。这能说明想学习?零基础太容易无从下手,难以坚持,浅尝则止了。
无从下手,这是不知道学什么,我说过数据分析是一门比较宽广的学科。它既有传统商业分析的方法论,也有数据时代的统计和编程。可它又偏偏是任何岗位任何职业都能用到的技能,绕不过。
学习是很主观的事情,我们从小学开始读到大学,数十年的学生生涯,最缺漏的能力是主动学习。中考高考打磨那么多年,很大情况是环境因素逼迫人去学习,本身没有任何学习的驱动力和习惯。大学四年再一度过,可能学习性就消磨殆尽了。
之所以说我们习惯被动学习,是大家都有一道题目做一道题目,只知道公式应用,不需要知晓原理。教材辅导题海战术,内容也不会超纲。整个大的学习环境都是为被动打造。
现在学习数据分析,拿起书籍、打开PDF资料、关注公众号。不会有老师纠正你辅导你,不会有作业鞭策你训练你。也不知道工作中哪个会经常用到,没有练手的数据题目,甚至连网络上的知识质量都难以辨别。
无从下手,对吧,可这才是主动学习。
心态要转变。
零基础学习数据分析,最大的老师只能是自己,不会有任何一篇文章一夜教人成为数据分析师。我带过愿意学习并且成长很快的实习生,也教导过有兴趣但依旧带不出节奏的同事。前者是主动学习,后者是止于兴趣的被动学习。
因为是零基础,所以才更需要主动性。数据分析本事是发展很快的行业,几年前会SQL就行,现在得了解些MR和HIVE,过几年SparkSQL也许就是必备,如果想在这一行做的好一些。持续的学习是必须的能力。或者基础不如其他人,至少学习性别输吧。
我也给出我的建议,学习应该是具体为解决某一个问题而设立目标,说透彻点,实战为王。不论是何种职业,一定或多或少能接触数据。先别去分析,而是想,能用这些数据干什么,做一个简单的假设。
我是HR,我的假设就是最近招人越来越困难啦,
我是市场,我的假设就是现在营销成本太高,又没有什么效果。
我是运营或者产品,更好办了,假设某指标的数据因为ABC等原因而无法提升。
哪怕是学生,也能假设在学校商圈赚钱是容易还是困难。
数据围绕假设去收集、生成、组合、利用、论证和分析。这是麦肯锡式的思维方法,也可以作为学数据的方法。新人容易陷入数据的迷途:我没有数据,有了数据也不知道干啥,知道干啥又不知道方法。想的太多,远不如有方向好用。
基于假设的好处是,我首先有了一个方向,别管它对不对,至少能按照方向做分析。
HR认为招人越来越困难,则可以拿出历史数据,以前我招人需要下载几份简历,打几个电话,发出几个Offer最终入职。现在呢?我还可以拿各个环节的数据观察,这不就是转化率嘛?时间维度放得宽一点,看看去年这时候招人困难不,是不是年底都难招,这样就了解折线图概念。
市场专员做分析,可以拿更多的数据作参考,假设营销成本太高,现在高到什么地步了,什么时候开始高的,找出时间点分析一下。效果不好,是什么时候效果不好,那时市场环境有什么变化吗?我假设市场环境有了变化,这又是一个新的假设,可以继续拎出一堆深入研究。
虽然各人分析效率和成果肯定不同,但是思路都能以这样训练出来。不是有了数据才有了分析,而是有了分析的方向才能收集分析数据。我的学习从来都是以解决问题为主,不是突然灵光一闪就会了。
如果把数据分析的学习旅程想成一条很长道路的话,我们不是一路开到终点,这没人能行。而是把这条道路分割成一段段,每段上面摆一个旗帜作目标,以旗帜为前行方向,不是以几十公里外的终点站作为目标。
好奇心
除了学习驱动力外,想成为数据分析师,还需要一颗好奇心。
好奇心就是问问题,想问题,琢磨问题,解决问题。如果你是一个天生八卦的人,那么将它用在数据分析上绝对是天选分析师,良材美玉。
很多人喜欢追求数据分析的工具、知识、要点、窍门。但是从来很少提到好奇心。
好奇心是解决问题的核心能力,编程可以锻炼,统计可以学习,这些最终都不是瓶颈。你学全了十八般武艺,临敌对战,最终需要的什么?是求胜心。数据的求胜心就是好奇。
知识决定解决问题的下限,好奇心决定解决问题的上限。好的数据分析师一定会有好奇心,会提问,会想问题,也能去解决问题。
我们最早期推的所有活动,都没有监控体系,整个运营也缺乏数据指导。对当时的我来说,很多运营的运作是黑箱。我不知道发什么了什么,怎么发生,只有一个结果输出。
别人若问我问什么,我只能做出假设,有可能一二三点。是否是这样,我也不知道。
运营活跃数上升,原因是什么?不知道。
短信推送后效果怎么样?不知道。
新注册用户来源有哪些?不知道。
那时随着公司业务线的拓展、用户数量提升。我用Excel做关联越来越吃力。我再一次向研发提数据需求时,CTO对我说:要不给你开个数据库权限,你自己查吧。
我告别了Excel,学习和了解数据库。从几张表的接触扩展到几百张表。
知道left join 和 inner join的区别。知道group by,知道数据结构,知道index。
那时期需要建立用户数据体系,包括留存、活跃、回流、分层等指标。我网上一边查运营指标的应用和解释,一边查SQL的实现。
和研发解释、沟通,因为了解数据库,很多需求以更合理的要求实现。这是我第一次开始接触、了解和建立以业务为核心的数据体系。
举一个例子:用户用过APP很长一段时间,我们管他叫忠诚用户,后来突然他连续几周不用,那么我们会通过SQL找出这类用户,分析他行为,电话访谈为什么不用,尝试唤回他。其他运营都是同理。
这时候,我才可以说我了解了活跃数,知道它为什么上升,为什么下降。
我们给不同用户推短信,借助SQL我能查询到数据的好坏,但是有没有更明确的指标?比如多少用户因为短信打开APP,短信打开率是多少?
当时短链用了url scheme,可以自动跳转到app,为了监控,我们也在短链中埋了参数。通过推送数据,观察这条短信会有多少人打开。
这是衡量一个文案的标准,好文案一定能触动用户打开。我们经常拿文案作为AB测试。举一个例子,我们会用短信营销,运营是和礼品挂钩的,当时有不少用户线上注册完并不下载APP,我们有那么一条针对此类的短信文案:
丨我们已经为您准备好了专属心意,XXXXX,请打开APP领取。
这条短信的打开率约在10%左右。但是还有优化空间,于是我不断修改文案,后续修改为:
丨既然您已经注册,为什么不来领取属于您的专属心意呢,XXXXX,请打开APP领取(中间内容不变)。
打开率被优化到18%。因为它用了营销心理,已经注册,契合了沉默成本的暗示:我做都做了,为什么不继续,不然白注册了。这种心理常见于旅游景点,景点很坑爹,但绝大多数人还是会说:既然来都来了,就是一种共通的心理。
后续短信又采取个性化方案,最终优化到25%。比最早期的文案效果好三倍左右。如果不好奇短信效果,如果不收集数据监控指标,那么优化无从谈起。我们可能凭感觉写出好文案,但你不知道具体效果,而数据能。
再来个例子,最开始我们借助微信朋友圈进行用户拉新,起初有多个渠道,但是我不知道哪个渠道效果好。然后我的好奇症又犯了,哪个渠道效果好?邀请转化率还能不能优化?渠道拉新成本是多少?
依旧是推动和落地数据分析的执行,因为微信的网页分享,会自动带from=timeline等参数,通过参数我能过滤出微信端浏览和访问的数据。后来又拜托研发针对不同渠道设置参数。通过参数统计转化率,并且给新用户打渠道来源标签。
期间发现一个渠道的转化率过低。我们大概分两类渠道,一个是落地页直接邀请用户注册,附加有礼品信息。一个是让用户先挑选礼品样式,最后领取步骤中跳到注册。通过转化率分析,后者的流失较为严重。因为步骤太冗余了,还有快递地址要填写,选取礼品的吸引力不足以支持用户走完流程。
于是便更改第二个渠道流程。不同注册渠道的用户来源,因为有标签,所以在后续新用户的运营中,可以有针对性地做措施。这也是短信通过个性化达到25%打开率的原因之一。
好奇是为了解决问题而服务的。通过不断的想问题,解决问题,数据分析相关的能力自然会提升。
幸运的是,好奇心能够后天锻炼,就是多问问题多想问题,锻炼难度不高。
非数据
零基础学习还会有另外一个问题,就是轻视业务的重要性。
实际上,想成为数据分析师,难点不在于Excel、SQL、统计等知识欠缺。而是业务知识的匮乏。
一个人懂业务不懂数据,另一个懂数据不懂业务,前者更有可能解决实际的问题。因为数据分析师始终是为业务而服务。
我曾向产品提出(没请吃饭)布置APP和Web埋点,通过用户的路径了解用户,也弥补网络统计的缺点。
当时通过Hadoop存储数据,使用Hive建立离线的脚本清洗、分区、加工。用户浏览产品的页面、使用的功能、停留的时间都能构成用户画像的基础。
我曾经很好奇什么是用户画像,因为网络上说用户的性别、地域、年龄、婚姻、财务、兴趣、偏好是构成用户画像的基础。但是我们的业务获取不到那么多数据。而我认为,用户画像是为了业务服务的,它不该有严格统一的标准。只要在业务上好用,就是好的用户画像。
就像在线视频的用户画像会收集电影的演员、上映时间、产地、语言、类型。还会细分到用户是否快进,是否拖拽。这些都是以业务为导向。甚至视频网站的分析师们本身就得阅片无数,才能根据业务分析。不然那么多电影类目和类型,如何细分各类指标?能通过拖拽快进去判断用户是否有兴趣,自身也得用过类似行为才能理解。
零基础怎么学习行业和业务知识?如果本身和业务接触,只是想做数据分析,难度小不少。如果像当初的我一样,既没有义务知识又不懂数据,也是可以的。
数据如果是假设性思维学习的话,那么业务应该是系统性思维学习。业务知识也需要一个目的和方向,但是和数据分析不同。业务注重的是系统性,系统性不是大而全,而是上而下的结构知识。先瞄准一个方向钻取深度,广度会随着深度的挖掘逐渐拓展。
比如你是一个外行,想学用户运营体系的分析,不要先考虑啥是用户运营,这问题太大。而是瞄准一个方向,例如活跃度,了解它的定义和含义,再想怎么应用。线下商场的活跃度如何定义,医院患者的活跃度如何定义,某个学校社团的活跃度如何?拿身边例子去思考活跃度。商场的活跃,可以是走来走去的人流,可以是进行消费购物的客流,可以是大包小包的土豪。什么因素会影响活跃?促销还是打折,节假日还是地理。等这些问题想通了,上手用户运营会很快。
再通过同样的思维去想留存、去想拉新。就会知道,如果商场的人流下次继续来消费,就是留存,有新客人来,就是拉新。这又有哪些因素互相影响?最后的知识思维一定是金字塔结构的。上层是用户运营,中间是拉新、活跃、留存。下层是各个要点和要素。
数据分析的学习注重演绎和推理,业务的学习注重关联和适用,学以致用就是说的这种情况。期间也会用到好奇心和假设,这两点都是加速学习的途径之一。
实际上说了这么多,对于零基础想当数据分析师的同学来说,可能仍旧有一些云山雾罩吧。这些软技能也不会助人一步登天的,其实的七周成为数据分析师,从最开始我也说过是入门的大纲。重要的是自己是否真的想学和学好,师傅领进门,修行靠个人,其他一切都是虚的。
想起很久以前看的一句鸡汤话,当你想要前行时,一切都会为你让路。我想这比我说的一切都更有力。
所以你问我零基础能成为数据分析师吗?我的回答是能。
文章其实有一些赶,最后祝大家圣诞快乐。