lzo压缩java_如何自己开发一套服务器管理系统

A. 如何自己开发一套服务器管理系统

转载表面上看，是一套基于B/S方式实现的分布式管理系统，但其实背后的架构是基于C/S完成的。你以为他是一只鞋吗？其实他是一个吹风机。作为界面化的系统，浏览器框架是不可或缺的，但更加重要的东西在Socket上面。

一、需要解决中央控制端到各节点服务器之间的通信。
这个其实牵扯到一个通信协议的问题，各语言都有自己的socket，thread的库，直接调用即可。但是这个通信协议就需要自己来完成了。既不能太简单，太简单了，明码传输，如果别人获知了这个接口，就很容易执行一些令人讨厌的操作。也不能太复杂，太复杂了等于是给自己找麻烦，所以简单的数据包编解码的工作或者用token验证的方式是需要的。通信协议起码要两种，一种是传输命令执行的协议，一种是传输文件的协议。

二、跨语言的socket通信
为什么要跨语言，主控端和代理端通信，用什么语言开发其实无所谓。但是为了给自己省事，尽可能使用服务器上已经有了的默认语言，Ambari前期采用php+puppet的方式管理集群，这不是不可以，puppet自己解决了socket通信协议和文件传输的问题，可你需要为了puppet在每台服务器上都安装ruby。我是个有点服务器和代码洁癖的人。光是为了一个puppet就装个ruby，我觉得心里特对不起服务器的资源。所以我自己写了一个python的代理端。python是不管哪个linux系统在安装的时候就都会有了。然后主控端的通信，可以用python实现，也可以用php实现，但是考虑到对于更多的使用者来说，改php可能要比改tornado简单许多，所以就没用python开发。hadoop分支版本众多，发布出去，用户要自己修改成安装适合自己的hadoop发行版，就势必要改源码，会php的明显比会python的多。php里面的model封装了所有的操作，而python只是个操作代理人的角色而已。

所以也延伸出一个问题，什么语言用来做这种分布式管理系统的代理端比较合适，我自己觉得，也就是python比较合适了，操作系统自带，原生的package功能基本够用。用java和php也可以写agent，但是你势必在各节点预先就铺设好jre或者php运行环境。这就跟为什么用python和java写mapred的人最多是一样的。没人拦着你用nodejs写mapred，也可以写，就是你得在每个节点都装v8的解释引擎，不嫌麻烦完全可以这样干。原理参看map/rece论文，不解释。perl也是操作系统原生带的，但是perl的可维护性太差了，还是算了吧。

所以这就牵扯到一个跨语言的socket问题，理论上来说，这不存在什么问题。但这是理论上的，实际开发过程中确实存在问题，比如socket长连接，通信数据包在底层的封装方式不同。我没有使用xml-rpc的原因之一就是我听说php的xmlrpc跟其他语言的xmlrpc有不同的地方，需要修改才能用,我就没有用这种办法。最早是自己定义的操作协议，这时就遇到了这些问题，所以后来直接采用了thrift方式。就基本不存在跨语言的socket通信问题了。

三、代理端执行结果的获取
无论命令还是文件是否在代理端执行成功，都需要获取到执行结果返回给中央端。所以这里也涉及一个读取节点上的stdout和stderr的问题。这个总体来说不是很难，都有现成的包。当然这个时候你需要的是阻塞执行，而不能搞异步回调。
还有个问题是，我要尽可能使用python默认就带的包，而尽量不让服务器去访问internet下载第三方的包。

还有代理端最重要的一点，就是python的版本兼容性。centos5用python 2.4，centos6用python 2.6，ubuntu基本默认都是2.7。所以一定要最大限度的保证语言的跨版本兼容性，要是每个操作系统和每一个版本我都写一个代理，我一个人就累死了。

四、浏览器端的model，view，controller
这里面你要封装好所有的通信协议，以及需要在节点上面执行的脚本。发送文件的操作和数据库操作也要在model里面完成。
如果对tcl/tk很熟，也可以写基于操作系统界面方式的管理，不用浏览器就是了。
view对我来说是最痛苦的事，都是现学的jQuery怎么用，前端的工作太可怕了。关于这方面，没有太多可描述的，html和js带给我的只有痛苦的回忆，万恶的undefined。

五、跨操作系统的安装文件封装。
要适应不同的操作系统也是个很麻烦的事情，需要用agent提前获知操作系统的发行分支，版本号。然后去找到对应的安装文件去执行。你不能保证一个分布式系统的集群中所有的节点都可以访问internet，更多的情况是这些节点都存在在一个安全的内网中。只有个别几个节点是可以访问外网的。所以，我势必要把所有的安装文件以及他们的依赖尽可能集中起来。我不确定安装操作系统的lzo，yum或者apt-get会去下什么鬼东西，甚至无论是yum还是apt-get，里面都没有hadoop-lzo的库文件。所以，最好的办法是自己编译打包rpm和deb包。直接安装就好了，别去找repo下载什么。

这就是第五步工作，把需要的依赖的东西自己编译打包成rpm和deb。

deb包很好解决，但是rpm就没那么好办了，需要学习rpm的编译文件如何编写，这块是挺麻烦的，但是这玩意用好了还是挺不错的。现在我自制的安装包里面就已经包含了自己编译的lzo和snappy两种压缩库，以及hadoop-gpl-packaging的rpm和deb。下一个发布的easyhadoop将直接支持centos5,6，suse，以及ubuntu/debian的系统上安装hadoop。已经自带了lzo和snappy以及lzop和snzip。

六、把这些所有东西，整合到一个系统里面。

关联这些所有事情间的联系，整合到一个浏览器界面里面去。写一个分布式的管理脚本不难，写一个界面也不难，但是也许是我的水平不行，这两件事结合起来让他们协同工作还是有点难度的。对我来说，写界面的工作可能更难一点。

Cloudera可能是十来个人在写Manager的东西，ambari也是放到github和apache svn上面，apache基金会的各种committer在写。easyhadoop没他们功能那么强大，一年来只有我一个人设计架构，功能，各种语言的编码，测试，发布。For the love of god, What have I done(英文部分请站在山顶仰天长啸)? T_T。从前台到后台，到hadoop和生态系统以及他们的依赖软件的单独patch、编译打包。(系统yum或者apt-get的包不如自己打的好使。)

从时间上来看，全球第一款开源的hadoop部署管理系统应该还是属于ambari，2011年8月开始写的，2012年9月底进入apache的incubator。我是大概2012年8月开始写的easyhadoop，全球第一没赶上，估计国内第一个开源的hadoop管理系统还是可以排上的。

B. 大数据培训到底是培训什么

一、基础部分：JAVA语言和 LINUX系统

二、数据开发:

1、数据分析与挖掘

一般工作包括数据清洗，执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。

大数据培训一般是指大数据开发培训。

大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

2、大数据开发

数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等；

课程学习一共分为六个阶段：

C. 大数据需要掌握哪些技能

大数据技术体系庞大，包括的知识较多

1、学习大数据首先要学习Java基础

Java是大数据学习需要的编程语言基础，因为大数据的开发基于常用的高级语言。而且不论是学hadoop，

2、学习大数据必须学习大数据核心知识

Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。

3、学习大数据需要具备的能力

数学知识，数学知识是数据分析师的基础知识。对于数据分析师，了解一些描述统计相关的内容，需要有一定公式计算能力，了解常用统计模型算法。而对于数据挖掘工程师来说，各类算法也需要熟练使用，对数学的要求是最高的。

4、学习大数据可以应用的领域

大数据技术可以应用在各个领域，比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等，应用范围非常广泛。

D. 数据分析需要掌握哪些知识

Java基础语法

· 分支结构if/switch
· 循环结构for/while/do while
· 方法声明和调用
· 方法重载
· 数组的使用
· 命令行参数、可变参数

IDEA

· IDEA常用设置、常用快捷键
· 自定义模板
· 关联Tomcat
· Web项目案例实操

面向对象编程

· 封装、继承、多态、构造器、包
· 异常处理机制
· 抽象类、接口、内部类
· 常有基础API、集合List/Set/Map
· 泛型、线程的创建和启动
· 深入集合源码分析、常见数据结构解析
· 线程的安全、同步和通信、IO流体系
· 反射、类的加载机制、网络编程

Java8/9/10/11
新特性

· Lambda表达式、方法引用
· 构造器引用、StreamAPI
· jShell(JShell)命令
· 接口的私有方法、Optional加强
· 局部变量的类型推断
· 更简化的编译运行程序等

MySQL

· DML语言、DDL语言、DCL语言
· 分组查询、Join查询、子查询、Union查询、函数
· 流程控制语句、事务的特点、事务的隔离级别等

JDBC

· 使用JDBC完成数据库增删改查操作
· 批处理的操作
· 数据库连接池的原理及应用
· 常见数据库连接池C3P0、DBCP、Druid等

Maven

· Maven环境搭建
· 本地仓库&中央仓库
· 创建Web工程
· 自动部署
· 持续继承
· 持续部署

Linux

· VI/VIM编辑器
· 系统管理操作&远程登录
· 常用命令
· 软件包管理&企业真题

Shell编程

· 自定义变量与特殊变量
· 运算符
· 条件判断
· 流程控制
· 系统函数&自定义函数
· 常用工具命令
· 面试真题

Hadoop

· Hadoop生态介绍
· Hadoop运行模式
· 源码编译
· HDFS文件系统底层详解
· DN&NN工作机制
· HDFS的API操作
· MapRece框架原理
· 数据压缩
· Yarn工作机制
· MapRece案例详解
· Hadoop参数调优
· HDFS存储多目录
· 多磁盘数据均衡
· LZO压缩
· Hadoop基准测试

Zookeeper

· Zookeeper数据结果
· 内部原理
· 选举机制
· Stat结构体
· 监听器
· 分布式安装部署
· API操作
· 实战案例
· 面试真题
· 启动停止脚本

HA+新特性

· HDFS-HA集群配置

Hive

· Hive架构原理
· 安装部署
· 远程连接
· 常见命令及基本数据类型
· DML数据操作
· 查询语句
· Join&排序
· 分桶&函数
· 压缩&存储
· 企业级调优
· 实战案例
· 面试真题

Flume

· Flume架构
· Agent内部原理
· 事务
· 安装部署
· 实战案例
· 自定义Source
· 自定义Sink
· Ganglia监控

Kafka

· 消息队列
· Kafka架构
· 集群部署
· 命令行操作
· 工作流程分析
· 分区分配策略
· 数据写入流程
· 存储策略
· 高阶API
· 低级API
· 拦截器
· 监控
· 高可靠性存储
· 数据可靠性和持久性保证
· ISR机制
· Kafka压测
· 机器数量计算
· 分区数计算
· 启动停止脚本

DataX

· 安装
· 原理
· 数据一致性
· 空值处理
· LZO压缩处理

Scala

· Scala基础入门
· 函数式编程
· 数据结构
· 面向对象编程
· 模式匹配
· 高阶函数
· 特质
· 注解&类型参数
· 隐式转换
· 高级类型
· 案例实操

Spark Core

· 安装部署
· RDD概述
· 编程模型
· 持久化&检查点机制
· DAG
· 算子详解
· RDD编程进阶
· 累加器&广播变量

Spark SQL

· SparkSQL
· DataFrame
· DataSet
· 自定义UDF&UDAF函数

Spark Streaming

· SparkStreaming
· 背压机制原理
· Receiver和Direct模式原理
· Window原理及案例实操
· 7x24 不间断运行&性能考量

Spark内核&优化

· 内核源码详解
· 优化详解

Hbase

· Hbase原理及架构
· 数据读写流程
· API使用
· 与Hive和Sqoop集成
· 企业级调优

Presto

· Presto的安装部署
· 使用Presto执行数仓项目的即席查询模块

Ranger2.0

· 权限管理工具Ranger的安装和使用

Azkaban3.0

· 任务调度工具Azkaban3.0的安装部署
· 使用Azkaban进行项目任务调度，实现电话邮件报警

Kylin3.0

· Kylin的安装部署
· Kylin核心思想
· 使用Kylin对接数据源构建模型

Atlas2.0

· 元数据管理工具Atlas的安装部署

Zabbix

· 集群监控工具Zabbix的安装部署

DolphinScheler

· 任务调度工具DolphinScheler的安装部署
· 实现数仓项目任务的自动化调度、配置邮件报警

Superset

· 使用SuperSet对数仓项目的计算结果进行可视化展示

Echarts

· 使用Echarts对数仓项目的计算结果进行可视化展示

Redis

· Redis安装部署
· 五大数据类型
· 总体配置
· 持久化
· 事务
· 发布订阅
· 主从复制

Canal

· 使用Canal实时监控MySQL数据变化采集至实时项目

Flink

· 运行时架构
· 数据源Source
· Window API
· Water Mark
· 状态编程
· CEP复杂事件处理

Flink SQL

· Flink SQL和Table API详细解读

Flink 内核

· Flink内核源码讲解
· 经典面试题讲解

Git&GitHub

· 安装配置
· 本地库搭建
· 基本操作
· 工作流
· 集中式

ClickHouse

· ClickHouse的安装部署
· 读写机制
· 数据类型
· 执行引擎

DataV

· 使用DataV对实时项目需求计算结果进行可视化展示

sugar

· 结合Springboot对接网络sugar实现数据可视化大屏展示

Maxwell

· 使用Maxwell实时监控MySQL数据变化采集至实时项目

ElasticSearch

· ElasticSearch索引基本操作、案例实操

Kibana

· 通过Kibana配置可视化分析

Springboot

· 利用Springboot开发可视化接口程序

E. 以道大数据课程体系都讲什么

大数据技术在如今应用非常广泛，许多想入行学习大数据培训的童鞋不知从何学起，从哪儿开始学首先要根据你的基本情况而定，如果你是零基础的也不需要担心，先从基础开始学起就好了，接下来学习基础java开始、数据结构、关系型数据库、linux系统操作，夯实基础之后，再进入大数据的学习，例如：hadoop离线分析、Storm实时计算、spark内存计算的学习，以道教育大数据课程体系可以如下：
第一阶段 WEB 开发基础
HTML基础
1、Html基本介绍
2、HTML语法规范
3、基本标签介绍
4、HTML编辑器/文本文档/WebStrom/elipse
5、HTML元素和属性
6、基本的HTML元素
6.1 标题
6.2 段落
6.3 样式和style属性
6.3 链接 a
6.4 图像 img
6.5 表格 table
6.6 列表 ul/ol/dl
7、 HTML注释
8、表单介绍
9、Table标签
10、DIV布局介绍
11、HTML列表详解
HTML布局和Bootstrap
1、 HTML块元素（block）和行内元素(inline)
2、使用div实现网页布局
3、响应式WEB设计（Responsive Web Design）
4、使用bootstrap实现响应式布局
HTML表单元素
1、HTML表单 form
2、HTML表单元素
3、 HTML input的类型 type
4、 Html input的属性
CSS基础
1、CSS简介及基本语法
2、在HTML文档中使用CSS
3、CSS样式
4、CSS选择器
5、盒子模型
6、布局及定位
CSS高级/CSS3
1、尺寸和对齐
2、分类（clear/cursor/display/float/position/visibility）
3、导航栏
4、图片库
5、图片透明
6、媒介类型 @media
7、CSS3
8、CSS3动画效果
JavaScript基础
1、JavaScript简介
2、基本语法规则
3、在HTML文档中使用JS
4、JS变量
5、JS数据类型
6、JS函数
7、JS运算符
8、流程控制
9、JS错误和调试
JavaScript对象和作用域
1、数字 Number
2、字符串String
3、日期 Date
4、数组
5、数学 Math
6、DOM对象和事件
7、BOM对象
8、Window对象
9、作用域和作用域链
10、JSON
Javascript库
1、Jquery
2、Prototype
3、Ext Js
Jquery
1、Jquery基本语法
2、Jquery选择器
3、Jquery事件
4、Jquery选择器
5、Jquery效果和动画
6、使用Jquery操作HTML和DOM
7、Jquery遍历
8、Jquery封装函数
9、Jquery案例
表单验证和Jquery Validate
1、用Js对HTML表单进行验证
2、Jquery Validata基本用法
3、默认校验规则和提示信息
4、debug和ignore
5、更改错误信息显示位置和样式
6、全部校验通过后的执行函数
7、修改验证触发方式
8、异步验证
9、自定义校验方法
10、radio 和 checkbox、select 的验证
Java基础
1、关于Java
2、Java运行机制
3、第一个Java程序，注释
4、Javac,Java,Javadoc等命令
5、标识符与关键字
6、变量的声明，初始化与应用
7、变量的作用域
8、变量重名
9、基本数据类型
10、类型转换与类型提升
11、各种数据类型使用细节
12、转义序列
13、各种运算符的使用
流程控制
1、选择控制语句if-else
2、选择控制语句switch-case
3、循环控制语句while
4、循环控制语句do-while
5、循环控制语句for与增强型for
6、break，continue，return
7、循环标签
8、数组的声明与初始化
9、数组内存空间分配
10、栈与堆内存
11、二维（多维）数组
12、Arrays类的相关方法
13、main方法命令行参数
面向对象
1、面向对象的基本思想
2、类与对象
3、成员变量与默认值
4、方法的声明，调用
5、参数传递和内存图
6、方法重载的概念
7、调用原则与重载的优势
8、构造器声明与默认构造器
9、构造器重载
10、this关键字的使用
11、this调用构造器原则
12、实例变量初始化方式
13、可变参数方法
访问权限控制
1、包 package和库
2、访问权限修饰符private/protected/public/包访问权限
3、类的访问权限
4、抽象类和抽象方法
5、接口和实现
6、解耦
7、Java的多重继承
8、通过继承来扩展接口
错误和异常处理
1、概念：错误和异常
2、基本异常
3、捕获异常 catch
4、创建自定义异常
5、捕获所有异常
6、Java标准异常
7、使用finally进行清理
8、异常的限制
9、构造器
10、异常匹配
11、异常使用指南
数据库基础（MySQL）
数据库基础（MySQL）
JDBC
1、Jdbc基本概念
2、使用Jdbc连接数据库
3、使用Jdbc进行crud操作
4、使用Jdbc进行多表操作
5、Jdbc驱动类型
6、Jdbc异常和批量处理
7、Jdbc储存过程
Servlet和JSP
1、Servlet简介
2、Request对象
3、Response对象
4、转发和重定向
5、使用Servlet完成Crud
6、Session和Coolie简介
7、ServletContext和Jsp
8、El和Jstl的使用
Ajax
1、什么是Ajax
2、XMLHttpRequest对象（XHR）
3、XHR请求
4、XHR响应
5、readystate/onreadystatechange
6、Jquery Ajax
7、JSON
8、案例：对用户名是否可用进行服务器端校验
综合案例
1、项目开发一般流程介绍
2、模块化和分层
3、DButils
4、QueryRunner
5、ResultSetHandle
6、案例：用户登录/注册，从前端到后端
第二阶段 Java SE
访问权限和继承
1、包的声明与使用
2、import与import static
3、访问权限修饰符
4、类的封装性
5、static（静态成员变量）
6、final（修饰变量，方法）
7、静态成员变量初始化方式
8、类的继承与成员继承
9、super的使用
10、调用父类构造器
11、方法的重写与变量隐藏
12、继承实现多态和类型转换
13、instanceof
抽象类与接口
1、抽象类
2、抽象方法
3、继承抽象类
4、抽象类与多态
5、接口的成员
6、静态方法与默认方法
7、静态成员类
8、实例成员类
9、局部类
10、匿名类
11、eclipse的使用与调试
12、内部类对外围类的访问关系
13、内部类的命名
Lambda表达式与常用类
1、函数式接口
2、Lambda表达式概念
3、Lambda表达式应用场合
4、使用案例
5、方法引用
6、枚举类型（编译器的处理）
7、包装类型（自动拆箱与封箱）
8、String方法
9、常量池机制
10、String讲解
11、StringBuilder讲解
12、Math，Date使用
13、Calendars使用
异常处理与泛型
1、异常分类
2、try-catch-finally
3、try-with-resources
4、多重捕获multi-catch
5、throw与throws
6、自定义异常和优势
7、泛型背景与优势
8、参数化类型与原生类型
9、类型推断
10、参数化类型与数组的差异
11、类型通配符
12、自定义泛型类和类型擦出
13、泛型方法重载与重写
集合
1 、常用数据结构
2 、Collection接口
3 、List与Set接口
4 、SortedSet与NavigableSet
5 、相关接口的实现类
6 、Comparable与Comparator
7、Queue接口
8 、Deque接口
9 、Map接口
10、NavigableMap
11、相关接口的实现类
12、流操作（聚合操作）
13、Collections类的使用
I/O流与反射
1 、File类的使用
2 、字节流
3 、字符流
4 、缓存流
5 、转换流
6 、数据流
7、对象流
8、类加载，链接与初始化
9 、ClassLoader的使用
10、Class类的使用
11、通过反射调用构造器
12、安全管理器
网络编程模型与多线程
1、进程与线程
2、创建线程的方式
3、线程的相关方法
4、线程同步
5、线程死锁
6、线程协作操作
7、计算机网络（IP与端口）
8、TCP协议与UDP协议
9、URL的相关方法
10、访问网络资源
11、TCP协议通讯
12、UDP协议通讯
13、广播
SSM-Spring
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.IOC
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.AOP
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.Mybatis
1.MyBatis简介
2.MyBatis配置文件
3.用MyBatis完成CRUD
4.ResultMap的使用
5.MyBatis关联查询
6.动态SQL
7.MyBatis缓冲
8.MyBatis-Generator
Socket编程
1.网络通信和协议
2.关于Socket
3.Java Socket
4.Socket类型
5.Socket函数
6.WebSocket
7.WebSocket/Spring MVC/WebSocket Ajax
IO/异步
window对象
全局作用域
窗口关系及框架
窗口位置和大小
打开窗口
间歇调用和超时调用（灵活运用）
系统对话框
location对象
navigator对象
screen对象
history对象
NIO/AIO
1.网络编程模型
2.BIO/NIO/AIO
3.同步阻塞
4.同步非阻塞
5.异步阻塞
6.异步非阻塞
7.NIO与AIO基本操作
8.高性能IO设计模式
第三阶段 Java 主流框架
MyBatis
1.mybatis框架原理分析
2.mybatis框架入门程序编写
3.mybatis和hibernate的本质区别和应用场景
4.mybatis开发方法
5.SqlMapConfig配置文件讲解
6.输入映射-pojo包装类型的定义与实现
7.输出映射-resultType、resultMap
8.动态sql
9.订单商品数据模型分析
10.高级映射的使用
11.查询缓存之一级缓存、二级缓存
12.mybatis与spring整合
13. mybatis逆向工程自动生成代码
Spring/Spring MVC
1. springmvc架构介绍
2. springmvc入门程序
3. spring与mybatis整合
4. springmvc注解开发—商品修改功能分析
5. springmvc注解开发—RequestMapping注解
6. springmvc注解开发—Controller方法返回值
7. springmvc注解开发—springmvc参数绑定过程分析
8. springmvc注解开发—springmvc参数绑定实例讲解
9. springmvc与struts2的区别
10. springmvc异常处理
11. springmvc上传图片
12. springmvc实现json交互
13. springmvc对RESTful支持
14. springmvc拦截器
第四阶段关系型数据库/MySQL/NoSQL
SQL基础
1.SQL及主流产品
2.MySQL的下载与安装（sinux/windows）
3.MySql的基本配置/配置文件
4.基本的SQL操作 DDL
5.基本的SQL操作 DML
6.基本的SQL操作 DCL
7.MySQL客户端工具
8.MySQL帮助文档
MySQL数据类型和运算符
1 数值类型
2 日期时间类型
3 字符串类型
4 CHAR 和 VARCHAR 类型
5 BINARY 和 VARBINARY 类型
6 ENUM 类型
7 SET 类型
8 算术运算符
9 比较运算符
10 逻辑运算符
11 位运算
12 运算符的优先级
MySQL函数
1 字符串函数
2 数值函数
3 日期和时间函数
4 流程函数
5 其他常用函数
MySQL存储引擎
1.MySQL支持的存储引擎及其特性
2.MyISAM
3.InnoDB
4.选择合适的存储引擎
选择合适的数据类型
1 CHAR 与 VARCHAR
2 TEXT 与 BLOB
3 浮点数与定点数
4 日期类型选择
字符集
1 字符集概述
2 Unicode字符集
3 汉字及一些常见字符集
4 选择合适的字符集
5 MySQL 支持的字符集
6 MySQL 字符集的设置 .
索引的设计和使用
1.什么是索引
2.索引的类型
3.索引的数据结构 BTree B+Tree Hash
4.索引的存储
5.MySQL索引
6.查看索引的使用情况
7.索引设计原则
视图/存储过程/函数/触发器
1. 什么是视图
2. 视图操作
3. 什么是存储过程
4. 存储过程操作
5. 什么是函数
6. 函数的相关操作
7. 触发器
事务控制/锁
1. 什么是事务
2. 事务控制
3. 分布式事务
4. 锁/表锁/行锁
5. InnoDB 行锁争用
6. InnoDB 的行锁模式及加锁方法7
7 InnoDB 行锁实现方式7
8 间隙锁（Next-Key 锁）
9 恢复和复制的需要，对 InnoDB 锁机制的影响
10 InnoDB 在不同隔离级别下的一致性读及锁的差异
11 表锁
12 死锁
SQL Mode和安全问题
1. 关于SQL Mode
2. MySQL中的SQL Mode
3. SQL Mode和迁移
4. SQL 注入
5. 开发过程中如何避免SQL注入
SQL优化
1.通过 show status 命令了解各种 SQL 的执行频率
2. 定位执行效率较低的 SQL 语句
3. 通过 EXPLAIN 分析低效 SQL 的执行计划
4. 确定问题并采取相应的优化措施
5. 索引问题
6.定期分析表和检查表
7.定期优化表
8.常用 SQL 的优化
MySQL数据库对象优化
1. 优化表的数据类型
2 散列化
3 逆规范化
4 使用中间表提高统计查询速度
5. 影响MySQL性能的重要参数
6. 磁盘I/O对MySQL性能的影响
7. 使用连接池
8. 减少MySQL连接次数
9. MySQL负载均衡
MySQL集群
MySQL管理和维护
MemCache
Redis
在Java项目中使用MemCache和Redis
第五阶段：操作系统/Linux、云架构
Linux安装与配置
1、安装Linux至硬盘
2、获取信息和搜索应用程序
3、进阶：修复受损的Grub
4、关于超级用户root
5、依赖发行版本的系统管理工具
6、关于硬件驱动程序
7、进阶：配置Grub
系统管理与目录管理
1、Shell基本命令
2、使用命令行补全和通配符
3、find命令、locate命令
4、查找特定程序：whereis
5、Linux文件系统的架构
6、移动、复制和删除
7、文件和目录的权限
8、文件类型与输入输出
9、vmware介绍与安装使用
10、网络管理、分区挂载
用户与用户组管理
1、软件包管理
2、磁盘管理
3、高级硬盘管理RAID和LVM
4、进阶：备份你的工作和系统
5、用户与用户组基础
6、管理、查看、切换用户
7、/etc/...文件
8、进程管理
9、linux VI编辑器，awk，cut，grep，sed，find，unique等
Shell编程
1、 SHELL变量
2、传递参数
3、数组与运算符
4、SHELL的各类命令
5、SHELL流程控制
6、SHELL函数
7、SHELL输入/输出重定向
8、SHELL文件包含
服务器配置
1、系统引导
2、管理守护进程
3、通过xinetd启动SSH服务
4、配置inetd
5、Tomcat安装与配置
6、MySql安装与配置
7、部署项目到Linux
第六阶段：Hadoop生态系统
Hadoop基础
1、大数据概论
2、 Google与Hadoop模块
3、Hadoop生态系统
4、Hadoop常用项目介绍
5、Hadoop环境安装配置
6、Hadoop安装模式
7、Hadoop配置文件
HDFS分布式文件系统
1、认识HDFS及其HDFS架构
2、Hadoop的RPC机制
3、HDFS的HA机制
4、HDFS的Federation机制
5、 Hadoop文件系统的访问
6、JavaAPI接口与维护HDFS
7、HDFS权限管理
8、hadoop伪分布式
Hadoop文件I/O详解
1、Hadoop文件的数据结构
2、 HDFS数据完整性
3、文件序列化
4、Hadoop的Writable类型
5、Hadoop支持的压缩格式
6、Hadoop中编码器和解码器
7、 gzip、LZO和Snappy比较
8、HDFS使用shell+Java API
MapRece工作原理
1、MapRece函数式编程概念
2、 MapRece框架结构
3、MapRece运行原理
4、Shuffle阶段和Sort阶段
5、任务的执行与作业调度器
6、自定义Hadoop调度器
7、异步编程模型
8、YARN架构及其工作流程
MapRece编程
1、WordCount案例分析
2、输入格式与输出格式
3、压缩格式与MapRece优化
4、辅助类与Streaming接口
5、MapRece二次排序
6、MapRece中的Join算法
7、从MySQL读写数据
8、Hadoop系统调优
Hive数据仓库工具
1、Hive工作原理、类型及特点
2、Hive架构及其文件格式
3、Hive操作及Hive复合类型
4、Hive的JOIN详解
5、Hive优化策略
6、Hive内置操作符与函数
7、Hive用户自定义函数接口
8、Hive的权限控制
Hive深入解读
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Sqoop与Oozie
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Zookeeper详解
1、Zookeeper简介
2、Zookeeper的下载和部署
3、Zookeeper的配置与运行
4、Zookeeper的本地模式实例
5、Zookeeper的数据模型
6、Zookeeper命令行操作范例
7、storm在Zookeeper目录结构
NoSQL、HBase
1、HBase的特点
2、HBase访问接口
3、HBase存储结构与格式
4、HBase设计
5、关键算法和流程
6、HBase安装
7、HBase的SHELL操作
8、HBase集群搭建
第七阶段：Spark生态系统
Spark
1.什么是Spark
2.Spark大数据处理框架
3.Spark的特点与应用场景
4.Spark SQL原理和实践
5.Spark Streaming原理和实践
6.GraphX SparkR入门
7.Spark的监控和调优
Spark部署和运行
1.WordCount准备开发环境
2.MapRece编程接口体系结构
3.MapRece通信协议
4.导入Hadoop的JAR文件
5.MapRece代码的实现
6.打包、部署和运行
7.打包成JAR文件
Spark程序开发
1、启动Spark Shell
2、加载text文件
3、RDD操作及其应用
4、RDD缓存
5、构建Eclipse开发环境
6、构建IntelliJ IDEA开发环境
7、创建SparkContext对象
8、编写编译并提交应用程序
Spark编程模型
1、RDD特征与依赖
2、集合（数组）创建RDD
3、存储创建RDD
4、RDD转换执行控制操作
5、广播变量
6、累加器
作业执行解析
1、Spark组件
2、RDD视图与DAG图
3、基于Standalone模式的Spark架构
4、基于YARN模式的Spark架构
5、作业事件流和调度分析
6、构建应用程序运行时环境
7、应用程序转换成DAG
Spark SQL与DataFrame
1、Spark SQL架构特性
2、DataFrame和RDD的区别
3、创建操作DataFrame
4、RDD转化为DataFrame
5、加载保存操作与Hive表
6、Parquet文件JSON数据集
7、分布式的SQL Engine
8、性能调优数据类型
深入Spark Streaming
1、Spark Streaming工作原理
2、DStream编程模型
3、Input DStream
4、DStream转换状态输出
5、优化运行时间及内存使用
6、文件输入源
7、基于Receiver的输入源
8、输出操作
Spark MLlib与机器学习
1、机器学习分类级算法
2、Spark MLlib库
3、MLlib数据类型
4、MLlib的算法库与实例
5、ML库主要概念
6、算法库与实例
GraphX与SparkR
1、Spark GraphX架构
2、GraphX编程与常用图算法
3、GraphX应用场景
4、SparkR的工作原理
5、R语言与其他语言的通信
6、SparkR的运行与应用
7、R的DataFrame操作方法
8、SparkR的DataFrame
Scala编程开发
1、Scala语法基础
2、idea工具安装
3、maven工具配置
4、条件结构、循环、高级for循环
5、数组、映射、元组
6、类、样例类、对象、伴生对象
7、高阶函数与函数式编程
Scala进阶
1、柯里化、闭包
2、模式匹配、偏函数
3、类型参数
4、协变与逆变
5、隐式转换、隐式参数、隐式值
6、Actor机制
7、高级项目案例
Python编程
1、Python编程介绍
2、Python的基本语法
3、Python开发环境搭建
4、Pyhton开发Spark应用程序
第八阶段：Storm生态系统
storm简介与基本知识
1、storm的诞生诞生与成长
2、storm的优势与应用
3、storm基本知识概念和配置
4、序列化与容错机制
5、可靠性机制—保证消息处理
6、storm开发环境与生产环境
7、storm拓扑的并行度
8、storm命令行客户端
Storm拓扑与组件详解
1、流分组和拓扑运行
2、拓扑的常见模式
3、本地模式与stormsub的对比
4、使用非jvm语言操作storm
5、hook、组件基本接口
6、基本抽象类
7、事务接口
8、组件之间的相互关系
spout详解与bolt详解
1、spout获取数据的方式
2、常用的spout
3、学习编写spout类
4、bolt概述
5、可靠的与不可靠的bolt
6、复合流与复合anchoring
7、使用其他语言定义bolt
8、学习编写bolt类
storm安装与集群搭建
1、storm集群安装步骤与准备
2、本地模式storm配置命令
3、配置hosts文件、安装jdk
4、zookeeper集群的搭建
5、部署节点
6、storm集群的搭建
7、zookeeper应用案例
8、Hadoop高可用集群搭建
Kafka
1、Kafka介绍和安装
2、整合Flume
3、Kafka API
4、Kafka底层实现原理
5、Kafka的消息处理机制
6、数据传输的事务定义
7、Kafka的存储策略
Flume
1、Flume介绍和安装
2、Flume Source讲解
3、Flume Channel讲解
4、Flume Sink讲解
5、flume部署种类、流配置
6、单一代理、多代理说明
7、flume selector相关配置
Redis
1、Redis介绍和安装、配置
2、Redis数据类型
3、Redis键、字符串、哈希
4、Redis列表与集合
5、Redis事务和脚本
6、Redis数据备份与恢复
7、Redis的SHELL操作

F. 电脑的压缩文件有什么用

如果你要一次上传多个文件，可以用Winrar压缩成一个文件，不仅方便而且压缩以后原文件将缩小一些。
文件压缩，原本是在那个存储空间甚至需要以字节来计算的时代，为了节省文件所占用的空间而诞生的。而随着网络的普及，为了节省文件在网络上传输的流量及时间，对文件进行压缩也几乎成为了必备的过程。
根据所使用的压缩算法的不同，压缩文件也被区分为不同的格式。下面列表中的是所有的压缩文件格式，不过常用的并没有那么多，而在Windows系统上面常用的就更少了。下面介绍一下压缩文件的所有格式：
* .0 - Hacha Split存档
* .000 - DoubleSpace压缩档
* .001 - 7-Zip压缩Split档
* .7z - 7-Zip压缩档
* .ace -WinAce压缩档
* .ain - AIN压缩存档
* .alz - ALZip存档
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc压缩存档
* .ari - ARI压缩存档
* .arj - ARJ压缩存档
* .axx - AxCrypt加密档
* .bh - BlakHole存档
* .bhx - BinHex编码档
* .boo - Booasm压缩存档
* .bz - Bzip压缩档
* .bza -
* .bz2 - Bzip2压缩档
* .bzip2 - Bzip2压缩存档
* .c00 -WinAceSplit存档
* .c01 -WinAceSplit存档分卷
* .c02 -WinAceSplit存档分卷
* .cab -
* .car - CAR存档
* .cbr - Comic Book RAR存档
* .cbz - Comic Book ZIP存档
* .cp9 - ChoicePoint Encrypted档
* .cpgz - 压缩CPIO存档
* .cpt - Compact Pro存档
* .dar - DAR Disk存档
* .dd - DiskDouber存档
* .deb - Debian软件包
* .dgc - DGCA存档
* .dist - Mac OS X Distribution Script
* .ecs - Sony Ericsson Phone备份档
* .efw - Renamed Zip or Executable档
* .f - Freeze压缩档
* .fdp - MySafe加密数据
* .gca - GCA存档
* .gz - Gnu Zipped档
* .gzi - Unix Gzip档
* .gzip - Gnu Zipped档
* .ha - HA压缩存档
* .hbc - HyperBac压缩存档
* .hbc2 - HyperBac压缩存档
* .hbe - HyperBac压缩加密存档
* .hki - WinHKI存档
* .hki1 - WinHKI HKI1存档
* .hki2 - WinHKI HKI2存档
* .hki3 - WinHKI HKI3存档
* .hpk - HPack压缩存档
* .hyp- HYPER压缩存档
* .ice - ICE存档
* .imp - Winimp压缩存档
* .ipg - iPod游戏档
* .ipk - Itsy包
* .ish - ISH压缩存档
* .j - JAR存档
* .jar - JAR存档
* .jgz - Gzipped Javascript档
* .jic - Java Icon档
* .kgb - KGB存档
*.kz -快压存档
* .lbr - LU Library存档
* .lha - LHARC压缩存档
* .lnx - Commodore 64 Lynx存档
* .lqr - SQ压缩LBR存档
* .lzh - LZH压缩档
* .lzm - Slax Mole
* .lzma - LZMA压缩档
* .lzo - LZO压缩档
* .lzx - Amiga LZX压缩档
* .md - MDCD压缩存档
* .mint - Linux Mint安装程序档
* .mou - Winmount压缩档
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip压缩档
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage档
* .pae - PowerArchiver加密存档
* .pak- PAK (Packed)档
* .paq6 - PAQ6数据存档
* .paq7 - PAQ7数据存档
* .paq8 - PAQ8数据存档
* .par - Parchive Index档
* .par2 - Parchive 2 Index档
* .pbi - PC BSD安装程序包
* .pcv - Mozilla Profile备份
* .pea - PEA存档
* .pf - Private档
* .pim - PIM存档
* .pit - PackIt压缩存档
* .piz - Zipped档
* .pkg - Mac OS X安装程序包
* .pup - PlayStation 3 Update档
* .pup - Puppy Linux DotPup安装程序包
* .puz - Packed Publisher档
* .pwa - Password Agent档
* .qda - Quadruple D存档
* .r00 - WinRAR压缩存档
* .r01 - WinRAR Split存档分卷1
* .r02 - WinRAR Split存档分卷2
* .r03 - WinRAR Split存档分卷3
* .rar - WinRAR压缩存档
* .rk - WinRK存档
* .rnc - RNC ProPack存档
* .rpm - Red Hat Package Manager档
* .rte - RTE编码档
* .rz - Rzip压缩档
* .rzs - Red Zion Security档
* .s00 - ZipSplitter分卷1存档
* .s01 - ZipSplitter分卷2存档
* .s02 - ZipSplitter分卷3存档
* .s7z - Mac OS X 7-Zip档
* .sar - Service存档
* .sdn - Shareware Distributors Network档
* .sea - Self-Extracting存档
* .sfs- SquashFS存档
* .sfx - Windows自解压存档
* .sh - Unix Shell存档
* .shar - Unix Shar存档
* .shk - ShrinkIt存档
* .shr - Unix Shell存档
* .sit - Stuffit存档
* .sitx - Stuffit X存档
* .spt - TM File Packer压缩存档
* .sqx - SQX存档
* .sqz - Squeezed Video档
* .tar - Consolidated Unix档
* .tbz2 - Tar BZip 2压缩档
* .tgz - Gzipped Tar档
* .tlz - Tar LZMA压缩档
* .uc2 - UltraCompressor 2存档
* .uha -UHarc压缩存档
* .uue - UUEncoded档
* .vsi- Visual Studio Content安装程序档
* .wad - Compressed游戏数据
* .war - Java Web存档
* .wot - Web Of Trust档
* .xef -WinAce加密档
* .xez - eManager Template包
* .xpi - Mozilla安装程序包
* .xx - XXEncoded档
* .xxe - XXEncoded档
* .y - Amiga Yabba压缩档
* .yz - YAC压缩档
* .z - Unix压缩档
* .zap - FileWrangler存档
* .zfsendtotarget -压缩档夹
* .zip - Zipped档
* .zipx- Winzip压缩档
* .zix - WinZix压缩档
* .zoo - Zoo压缩档
* .zz - Zzip压缩存档
*.exe - 自解压格式

G. 大数据培训课程安排有哪些，深圳大数据培训哪家好

下面是以道教育大数据培训开发课程，可以参考
第一阶段 WEB 开发基础
HTML基础
1、Html基本介绍
2、HTML语法规范
3、基本标签介绍
4、HTML编辑器/文本文档/WebStrom/elipse
5、HTML元素和属性
6、基本的HTML元素
6.1 标题
6.2 段落
6.3 样式和style属性
6.3 链接 a
6.4 图像 img
6.5 表格 table
6.6 列表 ul/ol/dl
7、 HTML注释
8、表单介绍
9、Table标签
10、DIV布局介绍
11、HTML列表详解
HTML布局和Bootstrap
1、 HTML块元素（block）和行内元素(inline)
2、使用div实现网页布局
3、响应式WEB设计（Responsive Web Design）
4、使用bootstrap实现响应式布局
HTML表单元素
1、HTML表单 form
2、HTML表单元素
3、 HTML input的类型 type
4、 Html input的属性
CSS基础
1、CSS简介及基本语法
2、在HTML文档中使用CSS
3、CSS样式
4、CSS选择器
5、盒子模型
6、布局及定位
CSS高级/CSS3
1、尺寸和对齐
2、分类（clear/cursor/display/float/position/visibility）
3、导航栏
4、图片库
5、图片透明
6、媒介类型 @media
7、CSS3
8、CSS3动画效果
JavaScript基础
1、JavaScript简介
2、基本语法规则
3、在HTML文档中使用JS
4、JS变量
5、JS数据类型
6、JS函数
7、JS运算符
8、流程控制
9、JS错误和调试
JavaScript对象和作用域
1、数字 Number
2、字符串String
3、日期 Date
4、数组
5、数学 Math
6、DOM对象和事件
7、BOM对象
8、Window对象
9、作用域和作用域链
10、JSON
Javascript库
1、Jquery
2、Prototype
3、Ext Js
Jquery
1、Jquery基本语法
2、Jquery选择器
3、Jquery事件
4、Jquery选择器
5、Jquery效果和动画
6、使用Jquery操作HTML和DOM
7、Jquery遍历
8、Jquery封装函数
9、Jquery案例
表单验证和Jquery Validate
1、用Js对HTML表单进行验证
2、Jquery Validata基本用法
3、默认校验规则和提示信息
4、debug和ignore
5、更改错误信息显示位置和样式
6、全部校验通过后的执行函数
7、修改验证触发方式
8、异步验证
9、自定义校验方法
10、radio 和 checkbox、select 的验证
Java基础
1、关于Java
2、Java运行机制
3、第一个Java程序，注释
4、Javac,Java,Javadoc等命令
5、标识符与关键字
6、变量的声明，初始化与应用
7、变量的作用域
8、变量重名
9、基本数据类型
10、类型转换与类型提升
11、各种数据类型使用细节
12、转义序列
13、各种运算符的使用
流程控制
1、选择控制语句if-else
2、选择控制语句switch-case
3、循环控制语句while
4、循环控制语句do-while
5、循环控制语句for与增强型for
6、break，continue，return
7、循环标签
8、数组的声明与初始化
9、数组内存空间分配
10、栈与堆内存
11、二维（多维）数组
12、Arrays类的相关方法
13、main方法命令行参数
面向对象
1、面向对象的基本思想
2、类与对象
3、成员变量与默认值
4、方法的声明，调用
5、参数传递和内存图
6、方法重载的概念
7、调用原则与重载的优势
8、构造器声明与默认构造器
9、构造器重载
10、this关键字的使用
11、this调用构造器原则
12、实例变量初始化方式
13、可变参数方法
访问权限控制
1、包 package和库
2、访问权限修饰符private/protected/public/包访问权限
3、类的访问权限
4、抽象类和抽象方法
5、接口和实现
6、解耦
7、Java的多重继承
8、通过继承来扩展接口
错误和异常处理
1、概念：错误和异常
2、基本异常
3、捕获异常 catch
4、创建自定义异常
5、捕获所有异常
6、Java标准异常
7、使用finally进行清理
8、异常的限制
9、构造器
10、异常匹配
11、异常使用指南
数据库基础（MySQL）
数据库基础（MySQL）
JDBC
1、Jdbc基本概念
2、使用Jdbc连接数据库
3、使用Jdbc进行crud操作
4、使用Jdbc进行多表操作
5、Jdbc驱动类型
6、Jdbc异常和批量处理
7、Jdbc储存过程
Servlet和JSP
1、Servlet简介
2、Request对象
3、Response对象
4、转发和重定向
5、使用Servlet完成Crud
6、Session和Coolie简介
7、ServletContext和Jsp
8、El和Jstl的使用
Ajax
1、什么是Ajax
2、XMLHttpRequest对象（XHR）
3、XHR请求
4、XHR响应
5、readystate/onreadystatechange
6、Jquery Ajax
7、JSON
8、案例：对用户名是否可用进行服务器端校验
综合案例
1、项目开发一般流程介绍
2、模块化和分层
3、DButils
4、QueryRunner
5、ResultSetHandle
6、案例：用户登录/注册，从前端到后端
第二阶段 Java SE
访问权限和继承
1、包的声明与使用
2、import与import static
3、访问权限修饰符
4、类的封装性
5、static（静态成员变量）
6、final（修饰变量，方法）
7、静态成员变量初始化方式
8、类的继承与成员继承
9、super的使用
10、调用父类构造器
11、方法的重写与变量隐藏
12、继承实现多态和类型转换
13、instanceof
抽象类与接口
1、抽象类
2、抽象方法
3、继承抽象类
4、抽象类与多态
5、接口的成员
6、静态方法与默认方法
7、静态成员类
8、实例成员类
9、局部类
10、匿名类
11、eclipse的使用与调试
12、内部类对外围类的访问关系
13、内部类的命名
Lambda表达式与常用类
1、函数式接口
2、Lambda表达式概念
3、Lambda表达式应用场合
4、使用案例
5、方法引用
6、枚举类型（编译器的处理）
7、包装类型（自动拆箱与封箱）
8、String方法
9、常量池机制
10、String讲解
11、StringBuilder讲解
12、Math，Date使用
13、Calendars使用
异常处理与泛型
1、异常分类
2、try-catch-finally
3、try-with-resources
4、多重捕获multi-catch
5、throw与throws
6、自定义异常和优势
7、泛型背景与优势
8、参数化类型与原生类型
9、类型推断
10、参数化类型与数组的差异
11、类型通配符
12、自定义泛型类和类型擦出
13、泛型方法重载与重写
集合
1 、常用数据结构
2 、Collection接口
3 、List与Set接口
4 、SortedSet与NavigableSet
5 、相关接口的实现类
6 、Comparable与Comparator
7、Queue接口
8 、Deque接口
9 、Map接口
10、NavigableMap
11、相关接口的实现类
12、流操作（聚合操作）
13、Collections类的使用
I/O流与反射
1 、File类的使用
2 、字节流
3 、字符流
4 、缓存流
5 、转换流
6 、数据流
7、对象流
8、类加载，链接与初始化
9 、ClassLoader的使用
10、Class类的使用
11、通过反射调用构造器
12、安全管理器
网络编程模型与多线程
1、进程与线程
2、创建线程的方式
3、线程的相关方法
4、线程同步
5、线程死锁
6、线程协作操作
7、计算机网络（IP与端口）
8、TCP协议与UDP协议
9、URL的相关方法
10、访问网络资源
11、TCP协议通讯
12、UDP协议通讯
13、广播
SSM-Spring
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.IOC
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.AOP
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.Mybatis
1.MyBatis简介
2.MyBatis配置文件
3.用MyBatis完成CRUD
4.ResultMap的使用
5.MyBatis关联查询
6.动态SQL
7.MyBatis缓冲
8.MyBatis-Generator
Socket编程
1.网络通信和协议
2.关于Socket
3.Java Socket
4.Socket类型
5.Socket函数
6.WebSocket
7.WebSocket/Spring MVC/WebSocket Ajax
IO/异步
window对象
全局作用域
窗口关系及框架
窗口位置和大小
打开窗口
间歇调用和超时调用（灵活运用）
系统对话框
location对象
navigator对象
screen对象
history对象
NIO/AIO
1.网络编程模型
2.BIO/NIO/AIO
3.同步阻塞
4.同步非阻塞
5.异步阻塞
6.异步非阻塞
7.NIO与AIO基本操作
8.高性能IO设计模式
第三阶段 Java 主流框架
MyBatis
1.mybatis框架原理分析
2.mybatis框架入门程序编写
3.mybatis和hibernate的本质区别和应用场景
4.mybatis开发方法
5.SqlMapConfig配置文件讲解
6.输入映射-pojo包装类型的定义与实现
7.输出映射-resultType、resultMap
8.动态sql
9.订单商品数据模型分析
10.高级映射的使用
11.查询缓存之一级缓存、二级缓存
12.mybatis与spring整合
13. mybatis逆向工程自动生成代码
Spring/Spring MVC
1. springmvc架构介绍
2. springmvc入门程序
3. spring与mybatis整合
4. springmvc注解开发—商品修改功能分析
5. springmvc注解开发—RequestMapping注解
6. springmvc注解开发—Controller方法返回值
7. springmvc注解开发—springmvc参数绑定过程分析
8. springmvc注解开发—springmvc参数绑定实例讲解
9. springmvc与struts2的区别
10. springmvc异常处理
11. springmvc上传图片
12. springmvc实现json交互
13. springmvc对RESTful支持
14. springmvc拦截器
第四阶段关系型数据库/MySQL/NoSQL
SQL基础
1.SQL及主流产品
2.MySQL的下载与安装（sinux/windows）
3.MySql的基本配置/配置文件
4.基本的SQL操作 DDL
5.基本的SQL操作 DML
6.基本的SQL操作 DCL
7.MySQL客户端工具
8.MySQL帮助文档
MySQL数据类型和运算符
1 数值类型
2 日期时间类型
3 字符串类型
4 CHAR 和 VARCHAR 类型
5 BINARY 和 VARBINARY 类型
6 ENUM 类型
7 SET 类型
8 算术运算符
9 比较运算符
10 逻辑运算符
11 位运算
12 运算符的优先级
MySQL函数
1 字符串函数
2 数值函数
3 日期和时间函数
4 流程函数
5 其他常用函数
MySQL存储引擎
1.MySQL支持的存储引擎及其特性
2.MyISAM
3.InnoDB
4.选择合适的存储引擎
选择合适的数据类型
1 CHAR 与 VARCHAR
2 TEXT 与 BLOB
3 浮点数与定点数
4 日期类型选择
字符集
1 字符集概述
2 Unicode字符集
3 汉字及一些常见字符集
4 选择合适的字符集
5 MySQL 支持的字符集
6 MySQL 字符集的设置 .
索引的设计和使用
1.什么是索引
2.索引的类型
3.索引的数据结构 BTree B+Tree Hash
4.索引的存储
5.MySQL索引
6.查看索引的使用情况
7.索引设计原则
视图/存储过程/函数/触发器
1. 什么是视图
2. 视图操作
3. 什么是存储过程
4. 存储过程操作
5. 什么是函数
6. 函数的相关操作
7. 触发器
事务控制/锁
1. 什么是事务
2. 事务控制
3. 分布式事务
4. 锁/表锁/行锁
5. InnoDB 行锁争用
6. InnoDB 的行锁模式及加锁方法7
7 InnoDB 行锁实现方式7
8 间隙锁（Next-Key 锁）
9 恢复和复制的需要，对 InnoDB 锁机制的影响
10 InnoDB 在不同隔离级别下的一致性读及锁的差异
11 表锁
12 死锁
SQL Mode和安全问题
1. 关于SQL Mode
2. MySQL中的SQL Mode
3. SQL Mode和迁移
4. SQL 注入
5. 开发过程中如何避免SQL注入
SQL优化
1.通过 show status 命令了解各种 SQL 的执行频率
2. 定位执行效率较低的 SQL 语句
3. 通过 EXPLAIN 分析低效 SQL 的执行计划
4. 确定问题并采取相应的优化措施
5. 索引问题
6.定期分析表和检查表
7.定期优化表
8.常用 SQL 的优化
MySQL数据库对象优化
1. 优化表的数据类型
2 散列化
3 逆规范化
4 使用中间表提高统计查询速度
5. 影响MySQL性能的重要参数
6. 磁盘I/O对MySQL性能的影响
7. 使用连接池
8. 减少MySQL连接次数
9. MySQL负载均衡
MySQL集群
MySQL管理和维护
MemCache
Redis
在Java项目中使用MemCache和Redis
第五阶段：操作系统/Linux、云架构
Linux安装与配置
1、安装Linux至硬盘
2、获取信息和搜索应用程序
3、进阶：修复受损的Grub
4、关于超级用户root
5、依赖发行版本的系统管理工具
6、关于硬件驱动程序
7、进阶：配置Grub
系统管理与目录管理
1、Shell基本命令
2、使用命令行补全和通配符
3、find命令、locate命令
4、查找特定程序：whereis
5、Linux文件系统的架构
6、移动、复制和删除
7、文件和目录的权限
8、文件类型与输入输出
9、vmware介绍与安装使用
10、网络管理、分区挂载
用户与用户组管理
1、软件包管理
2、磁盘管理
3、高级硬盘管理RAID和LVM
4、进阶：备份你的工作和系统
5、用户与用户组基础
6、管理、查看、切换用户
7、/etc/...文件
8、进程管理
9、linux VI编辑器，awk，cut，grep，sed，find，unique等
Shell编程
1、 SHELL变量
2、传递参数
3、数组与运算符
4、SHELL的各类命令
5、SHELL流程控制
6、SHELL函数
7、SHELL输入/输出重定向
8、SHELL文件包含
服务器配置
1、系统引导
2、管理守护进程
3、通过xinetd启动SSH服务
4、配置inetd
5、Tomcat安装与配置
6、MySql安装与配置
7、部署项目到Linux
第六阶段：Hadoop生态系统
Hadoop基础
1、大数据概论
2、 Google与Hadoop模块
3、Hadoop生态系统
4、Hadoop常用项目介绍
5、Hadoop环境安装配置
6、Hadoop安装模式
7、Hadoop配置文件
HDFS分布式文件系统
1、认识HDFS及其HDFS架构
2、Hadoop的RPC机制
3、HDFS的HA机制
4、HDFS的Federation机制
5、 Hadoop文件系统的访问
6、JavaAPI接口与维护HDFS
7、HDFS权限管理
8、hadoop伪分布式
Hadoop文件I/O详解
1、Hadoop文件的数据结构
2、 HDFS数据完整性
3、文件序列化
4、Hadoop的Writable类型
5、Hadoop支持的压缩格式
6、Hadoop中编码器和解码器
7、 gzip、LZO和Snappy比较
8、HDFS使用shell+Java API
MapRece工作原理
1、MapRece函数式编程概念
2、 MapRece框架结构
3、MapRece运行原理
4、Shuffle阶段和Sort阶段
5、任务的执行与作业调度器
6、自定义Hadoop调度器
7、异步编程模型
8、YARN架构及其工作流程
MapRece编程
1、WordCount案例分析
2、输入格式与输出格式
3、压缩格式与MapRece优化
4、辅助类与Streaming接口
5、MapRece二次排序
6、MapRece中的Join算法
7、从MySQL读写数据
8、Hadoop系统调优
Hive数据仓库工具
1、Hive工作原理、类型及特点
2、Hive架构及其文件格式
3、Hive操作及Hive复合类型
4、Hive的JOIN详解
5、Hive优化策略
6、Hive内置操作符与函数
7、Hive用户自定义函数接口
8、Hive的权限控制
Hive深入解读
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Sqoop与Oozie
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Zookeeper详解
1、Zookeeper简介
2、Zookeeper的下载和部署
3、Zookeeper的配置与运行
4、Zookeeper的本地模式实例
5、Zookeeper的数据模型
6、Zookeeper命令行操作范例
7、storm在Zookeeper目录结构
NoSQL、HBase
1、HBase的特点
2、HBase访问接口
3、HBase存储结构与格式
4、HBase设计
5、关键算法和流程
6、HBase安装
7、HBase的SHELL操作
8、HBase集群搭建
第七阶段：Spark生态系统
Spark
1.什么是Spark
2.Spark大数据处理框架
3.Spark的特点与应用场景
4.Spark SQL原理和实践
5.Spark Streaming原理和实践
6.GraphX SparkR入门
7.Spark的监控和调优
Spark部署和运行
1.WordCount准备开发环境
2.MapRece编程接口体系结构
3.MapRece通信协议
4.导入Hadoop的JAR文件
5.MapRece代码的实现
6.打包、部署和运行
7.打包成JAR文件
Spark程序开发
1、启动Spark Shell
2、加载text文件
3、RDD操作及其应用
4、RDD缓存
5、构建Eclipse开发环境
6、构建IntelliJ IDEA开发环境
7、创建SparkContext对象
8、编写编译并提交应用程序
Spark编程模型
1、RDD特征与依赖
2、集合（数组）创建RDD
3、存储创建RDD
4、RDD转换执行控制操作
5、广播变量
6、累加器
作业执行解析
1、Spark组件
2、RDD视图与DAG图
3、基于Standalone模式的Spark架构
4、基于YARN模式的Spark架构
5、作业事件流和调度分析
6、构建应用程序运行时环境
7、应用程序转换成DAG
Spark SQL与DataFrame
1、Spark SQL架构特性
2、DataFrame和RDD的区别
3、创建操作DataFrame
4、RDD转化为DataFrame
5、加载保存操作与Hive表
6、Parquet文件JSON数据集
7、分布式的SQL Engine
8、性能调优数据类型
深入Spark Streaming
1、Spark Streaming工作原理
2、DStream编程模型
3、Input DStream
4、DStream转换状态输出
5、优化运行时间及内存使用
6、文件输入源
7、基于Receiver的输入源
8、输出操作
Spark MLlib与机器学习
1、机器学习分类级算法
2、Spark MLlib库
3、MLlib数据类型
4、MLlib的算法库与实例
5、ML库主要概念
6、算法库与实例
GraphX与SparkR
1、Spark GraphX架构
2、GraphX编程与常用图算法
3、GraphX应用场景
4、SparkR的工作原理
5、R语言与其他语言的通信
6、SparkR的运行与应用
7、R的DataFrame操作方法
8、SparkR的DataFrame
Scala编程开发
1、Scala语法基础
2、idea工具安装
3、maven工具配置
4、条件结构、循环、高级for循环
5、数组、映射、元组
6、类、样例类、对象、伴生对象
7、高阶函数与函数式编程
Scala进阶
1、柯里化、闭包
2、模式匹配、偏函数
3、类型参数
4、协变与逆变
5、隐式转换、隐式参数、隐式值
6、Actor机制
7、高级项目案例
Python编程
1、Python编程介绍
2、Python的基本语法
3、Python开发环境搭建
4、Pyhton开发Spark应用程序
第八阶段：Storm生态系统
storm简介与基本知识
1、storm的诞生诞生与成长
2、storm的优势与应用
3、storm基本知识概念和配置
4、序列化与容错机制
5、可靠性机制—保证消息处理
6、storm开发环境与生产环境
7、storm拓扑的并行度
8、storm命令行客户端
Storm拓扑与组件详解
1、流分组和拓扑运行
2、拓扑的常见模式
3、本地模式与stormsub的对比
4、使用非jvm语言操作storm
5、hook、组件基本接口
6、基本抽象类
7、事务接口
8、组件之间的相互关系
spout详解与bolt详解
1、spout获取数据的方式
2、常用的spout
3、学习编写spout类
4、bolt概述
5、可靠的与不可靠的bolt
6、复合流与复合anchoring
7、使用其他语言定义bolt
8、学习编写bolt类
storm安装与集群搭建
1、storm集群安装步骤与准备
2、本地模式storm配置命令
3、配置hosts文件、安装jdk
4、zookeeper集群的搭建
5、部署节点
6、storm集群的搭建
7、zookeeper应用案例
8、Hadoop高可用集群搭建
Kafka
1、Kafka介绍和安装
2、整合Flume
3、Kafka API
4、Kafka底层实现原理
5、Kafka的消息处理机制
6、数据传输的事务定义
7、Kafka的存储策略
Flume
1、Flume介绍和安装
2、Flume Source讲解
3、Flume Channel讲解
4、Flume Sink讲解
5、flume部署种类、流配置
6、单一代理、多代理说明
7、flume selector相关配置
Redis
1、Redis介绍和安装、配置
2、Redis数据类型
3、Redis键、字符串、哈希
4、Redis列表与集合
5、Redis事务和脚本
6、Redis数据备份与恢复
7、Redis的SHELL操作

H. 大数据分析应该掌握哪些基础知识

Java基础语法

· 分支结构if/switch

· 循环结构for/while/do while

· 方法声明和调用

· 方法重载

· 数组的使用

· 命令行参数、可变参数

IDEA

· IDEA常用设置、常用快捷键

· 自定义模板

· 关联Tomcat

· Web项目案例实操

面向对象编程

· 封装、继承、多态、构造器、包

· 异常处理机制

· 抽象类、接口、内部类

· 常有基础API、集合List/Set/Map

· 泛型、线程的创建和启动

· 深入集合源码分析、常见数据结构解析

· 线程的安全、同步和通信、IO流体系

· 反射、类的加载机制、网络编程

Java8/9/10/11新特性

· Lambda表达式、方法引用

· 构造器引用、StreamAPI

· jShell(JShell)命令

· 接口的私有方法、Optional加强

· 局部变量的类型推断

· 更简化的编译运行程序等

MySQL

· DML语言、DDL语言、DCL语言

· 分组查询、Join查询、子查询、Union查询、函数

· 流程控制语句、事务的特点、事务的隔离级别等

JDBC

· 使用JDBC完成数据库增删改查操作

· 批处理的操作

· 数据库连接池的原理及应用

· 常见数据库连接池C3P0、DBCP、Druid等

Maven

· Maven环境搭建

· 本地仓库&中央仓库

· 创建Web工程

· 自动部署

· 持续继承

· 持续部署

Linux

· VI/VIM编辑器

· 系统管理操作&远程登录

· 常用命令

· 软件包管理&企业真题

Shell编程

· 自定义变量与特殊变量

· 运算符

· 条件判断

· 流程控制

· 系统函数&自定义函数

· 常用工具命令

· 面试真题

Hadoop

· Hadoop生态介绍

· Hadoop运行模式

· 源码编译

· HDFS文件系统底层详解

· DN&NN工作机制

· HDFS的API操作

· MapRece框架原理

· 数据压缩

· Yarn工作机制

· MapRece案例详解

· Hadoop参数调优

· HDFS存储多目录

· 多磁盘数据均衡

· LZO压缩

· Hadoop基准测试

Zookeeper

· Zookeeper数据结果

· 内部原理

· 选举机制

· Stat结构体

· 监听器

· 分布式安装部署

· API操作

· 实战案例

· 面试真题

· 启动停止脚本

HA+新特性

· HDFS-HA集群配置

Hive

· Hive架构原理

· 安装部署

· 远程连接

· 常见命令及基本数据类型

· DML数据操作

· 查询语句

· Join&排序

· 分桶&函数

· 压缩&存储

· 企业级调优

· 实战案例

· 面试真题

Flume

· Flume架构

· Agent内部原理

· 事务

· 安装部署

· 实战案例

· 自定义Source

· 自定义Sink

· Ganglia监控

Kafka

· 消息队列

· Kafka架构

· 集群部署

· 命令行操作

· 工作流程分析

· 分区分配策略

· 数据写入流程

· 存储策略

· 高阶API

· 低级API

· 拦截器

· 监控

· 高可靠性存储

· 数据可靠性和持久性保证

· ISR机制

· Kafka压测

· 机器数量计算

· 分区数计算

· 启动停止脚本

DataX

· 安装

· 原理

· 数据一致性

· 空值处理

· LZO压缩处理

Scala

· Scala基础入门

· 函数式编程

· 数据结构

· 面向对象编程

· 模式匹配

· 高阶函数

· 特质

· 注解&类型参数

· 隐式转换

· 高级类型

· 案例实操

Spark Core

· 安装部署

· RDD概述

· 编程模型

· 持久化&检查点机制

· DAG

· 算子详解

· RDD编程进阶

· 累加器&广播变量

Spark SQL

· SparkSQL

· DataFrame

· DataSet

· 自定义UDF&UDAF函数

Spark Streaming

· SparkStreaming

· 背压机制原理

· Receiver和Direct模式原理

· Window原理及案例实操

· 7x24 不间断运行&性能考量

Spark内核&优化

· 内核源码详解

· 优化详解

Hbase

· Hbase原理及架构

· 数据读写流程

· API使用

· 与Hive和Sqoop集成

· 企业级调优

Presto

· Presto的安装部署

· 使用Presto执行数仓项目的即席查询模块

Ranger2.0

· 权限管理工具Ranger的安装和使用

Azkaban3.0

· 任务调度工具Azkaban3.0的安装部署

· 使用Azkaban进行项目任务调度，实现电话邮件报警

Kylin3.0

· Kylin的安装部署

· Kylin核心思想

· 使用Kylin对接数据源构建模型

Atlas2.0

· 元数据管理工具Atlas的安装部署

Zabbix

· 集群监控工具Zabbix的安装部署

DolphinScheler

· 任务调度工具DolphinScheler的安装部署

· 实现数仓项目任务的自动化调度、配置邮件报警

Superset

· 使用SuperSet对数仓项目的计算结果进行可视化展示

Echarts

· 使用Echarts对数仓项目的计算结果进行可视化展示

Redis

· Redis安装部署

· 五大数据类型

· 总体配置

· 持久化

· 事务

· 发布订阅

· 主从复制

Canal

· 使用Canal实时监控MySQL数据变化采集至实时项目

Flink

· 运行时架构

· 数据源Source

· Window API

· Water Mark

· 状态编程

· CEP复杂事件处理

Flink SQL

· Flink SQL和Table API详细解读

Flink 内核

· Flink内核源码讲解

· 经典面试题讲解

Git&GitHub

· 安装配置

· 本地库搭建

· 基本操作

· 工作流

· 集中式

ClickHouse

· ClickHouse的安装部署

· 读写机制

· 数据类型

· 执行引擎

DataV

· 使用DataV对实时项目需求计算结果进行可视化展示

sugar

· 结合Springboot对接网络sugar实现数据可视化大屏展示

Maxwell

· 使用Maxwell实时监控MySQL数据变化采集至实时项目

ElasticSearch

· ElasticSearch索引基本操作、案例实操

Kibana

· 通过Kibana配置可视化分析

Springboot

· 利用Springboot开发可视化接口程序

I. 求压缩文件格式大全，听说有40多种。

这是目前常见的所有压缩格式了。
* .0 - Hacha Split存档
* .000 - DoubleSpace压缩档
* .001 - 7-Zip压缩Split档
* .7z - 7-Zip压缩档
* .ace -WinAce压缩档
* .ain - AIN压缩存档
* .alz - ALZip存档
* .apz - Autoplay Media Studio Exported Project
* .ar - Unix Static Library
* .arc - FreeArc压缩存档
* .ari - ARI压缩存档
* .arj - ARJ压缩存档
* .axx - AxCrypt加密档
* .bh - BlakHole存档
* .bhx - BinHex编码档
* .boo - Booasm压缩存档
* .bz - Bzip压缩档
* .bza -
* .bz2 - Bzip2压缩档
* .bzip2 - Bzip2压缩存档
* .c00 -WinAceSplit存档
* .c01 -WinAceSplit存档分卷
* .c02 -WinAceSplit存档分卷
* .cab -
* .car - CAR存档
* .cbr - Comic Book RAR存档
* .cbz - Comic Book ZIP存档
* .cp9 - ChoicePoint Encrypted档
* .cpgz - 压缩CPIO存档
* .cpt - Compact Pro存档
* .dar - DAR Disk存档
* .dd - DiskDouber存档
* .deb - Debian软件包
* .dgc - DGCA存档
* .dist - Mac OS X Distribution Script
* .ecs - Sony Ericsson Phone备份档
* .efw - Renamed Zip or Executable档
* .f - Freeze压缩档
* .fdp - MySafe加密数据
* .gca - GCA存档
* .gz - Gnu Zipped档
* .gzi - Unix Gzip档
* .gzip - Gnu Zipped档
* .ha - HA压缩存档
* .hbc - HyperBac压缩存档
* .hbc2 - HyperBac压缩存档
* .hbe - HyperBac压缩加密存档
* .hki - WinHKI存档
* .hki1 - WinHKI HKI1存档
* .hki2 - WinHKI HKI2存档
* .hki3 - WinHKI HKI3存档
* .hpk - HPack压缩存档
* .hyp- HYPER压缩存档
* .ice - ICE存档
* .imp - Winimp压缩存档
* .ipg - iPod游戏档
* .ipk - Itsy包
* .ish - ISH压缩存档
* .j - JAR存档
* .jar - JAR存档
* .jgz - Gzipped Javascript档
* .jic - Java Icon档
* .kgb - KGB存档
*.kz -快压存档
* .lbr - LU Library存档
* .lha - LHARC压缩存档
* .lnx - Commodore 64 Lynx存档
* .lqr - SQ压缩LBR存档
* .lzh - LZH压缩档
* .lzm - Slax Mole
* .lzma - LZMA压缩档
* .lzo - LZO压缩档
* .lzx - Amiga LZX压缩档
* .md - MDCD压缩存档
* .mint - Linux Mint安装程序档
* .mou - Winmount压缩档
* .mpkg - Meta包
* .mzp - MAXScript Zip包
* .nz - nanozip压缩档
* .p7m - Digitally Encrypted Message
* .package - Linux Autopackage档
* .pae - PowerArchiver加密存档
* .pak- PAK (Packed)档
* .paq6 - PAQ6数据存档
* .paq7 - PAQ7数据存档
* .paq8 - PAQ8数据存档
* .par - Parchive Index档
* .par2 - Parchive 2 Index档
* .pbi - PC BSD安装程序包
* .pcv - Mozilla Profile备份
* .pea - PEA存档
* .pf - Private档
* .pim - PIM存档
* .pit - PackIt压缩存档
* .piz - Zipped档
* .pkg - Mac OS X安装程序包
* .pup - PlayStation 3 Update档
* .pup - Puppy Linux DotPup安装程序包
* .puz - Packed Publisher档
* .pwa - Password Agent档
* .qda - Quadruple D存档
* .r00 - WinRAR压缩存档
* .r01 - WinRAR Split存档分卷1
* .r02 - WinRAR Split存档分卷2
* .r03 - WinRAR Split存档分卷3
* .rar - WinRAR压缩存档
* .rk - WinRK存档
* .rnc - RNC ProPack存档
* .rpm - Red Hat Package Manager档
* .rte - RTE编码档
* .rz - Rzip压缩档
* .rzs - Red Zion Security档
* .s00 - ZipSplitter分卷1存档
* .s01 - ZipSplitter分卷2存档
* .s02 - ZipSplitter分卷3存档
* .s7z - Mac OS X 7-Zip档
* .sar - Service存档
* .sdn - Shareware Distributors Network档
* .sea - Self-Extracting存档
* .sfs- SquashFS存档
* .sfx - Windows自解压存档
* .sh - Unix Shell存档
* .shar - Unix Shar存档
* .shk - ShrinkIt存档
* .shr - Unix Shell存档
* .sit - Stuffit存档
* .sitx - Stuffit X存档
* .spt - TM File Packer压缩存档
* .sqx - SQX存档
* .sqz - Squeezed Video档
* .tar - Consolidated Unix档
* .tbz2 - Tar BZip 2压缩档
* .tgz - Gzipped Tar档
* .tlz - Tar LZMA压缩档
* .uc2 - UltraCompressor 2存档
* .uha -UHarc压缩存档
* .uue - UUEncoded档
* .vsi- Visual Studio Content安装程序档
* .wad - Compressed游戏数据
* .war - Java Web存档
* .wot - Web Of Trust档
* .xef -WinAce加密档
* .xez - eManager Template包
* .xpi - Mozilla安装程序包
* .xx - XXEncoded档
* .xxe - XXEncoded档
* .y - Amiga Yabba压缩档
* .yz - YAC压缩档
* .z - Unix压缩档
* .zap - FileWrangler存档
* .zfsendtotarget -压缩档夹
* .zip - Zipped档
* .zipx- Winzip压缩档
* .zix - WinZix压缩档
* .zoo - Zoo压缩档
* .zz - Zzip压缩存档
*.exe - 自解压格式

J. 如何查看hadoop maprece 性能

1) 优化map,rece任务运行的数量
症状：
每个 map 或 rece 任务都在30-40秒内结束。一个大job没有使用上所有集群中的可用槽位。在大部分mapper和recer都订好运行计划后，1到2个仍在pending状态直到最后才单独运行。诊断:优化map和rece的任务是非常重要但是经常被忽视，这里介绍几个我常用的相关设置方法：

如果每个任务只执行30-40秒就结束，请减少总的task数量。Task的基本设置和计划本身会消耗几秒钟的时间。所以如果Task执行非常快的话，时间就都浪费在准备Task上了。也可以开启JVM的reuse功能来减少建立task的基本开销。如果job要处理超过1TB的数据，可以考虑增加输入数据的块Block的大小从256MB到512MB。这样也会减小需要运行的Task数。可以通过如下命令改变数据块大小：hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks.执行完该命令就可以清除原来的文件了。在保证每个任务执行都超过30-40秒后，可以增加mapper task为mapper slot(可以执行mapper 机器)的整数倍，如果你有100个可以运行Map任务的节点，尽量不要运行101个Map Task，第101个Map task 会在第一批100个Map任务执行完之后才执行，这点主要针对的是小型集群和小型任务。
不要计划执行太多的Rece任务，对于大多数任务，我们建议Rece任务数要等于或小于集群中可运行Rece任务的节点数。
性能测试:
我使用一个参数-Dmapred.max.split.size=$[16*1024*1024] 来展示设置了过多任务的wordcount程序。这样会产生2640个而不是默认的360个任务来执行该程序。当以这种配置运行时单个的任务平均只用9秒，在JobTracker的监控页面上可以看到正在map任务数在0到24之间波动，整个Job花了17分52秒，是原来配置的2倍。

2) 在集群上使用 LZO 压缩插件

症状：
*应用于中间数据LZO压缩始终是个好方法。
*MapRece 任务输出文件尺寸很大。
*在任务运行时Slave节点上top和iostat中显示高iowait。

诊断：
几乎任何产生大量map输出的MapRece任务都能从LZO压缩算法受益。虽然LZO增加了一些CPU的负载，但是shuffle阶段减少的大量磁盘IO操作会把时间完全节省回来。
当job要处理大量数据时，LZO压缩也可以增加输出方面的的性能。在默认的3份复制配置下，每1GB压缩省下的空间都相当于节省了3GB的IO写操作。
要开启LZO压缩，请见另一篇文章，

记得要把mapred.compress.map.output设为true。

性能对比:
禁用LZO只在测试中轻微延长了运行时间。但是文件写出量计数FILE_BYTESwww.hbbz08.com_WRITTEN从3.5G增长到9.2G，显示出62%的IO优化效果，在一个job独自运行的环境下，IO并不是瓶颈，所以时间缩短并不明显。当在高任务并发的集群上运行时，60%的IO减少会带来明显的速度提升。

3) 正确配置Hadoop集群
症状：
*当所有的MapRece任务栏位都在运行任务时，用top命令观察到slave节点仍然相对的空闲。
*用top观察到内核进程RAID(mdX_raid*)或pdflush占用大量CPU
*Linux平均负载经常高于系统CPU数x2
*执行任务时，Linux平均负载低于系统CPU数
*节点上超过几MB的SWAP使用量
诊断：

导航:首页 > 文件处理 > lzo压缩java

lzo压缩java

与lzo压缩java相关的资料