重庆编译分布式存储硬盘_什么是分布式存储系统

Ⅰ 集中式存储和分布式存储可以共同部署吗

肯定不能，之间的区别：
1分布式存储就是DAS ，就是服务器里面放着硬盘，多台服务器的话就是分布式存储，数据分散，不易于管理。
2集中存储就是 NAS,SAN，将服务器和硬盘分开，数据都存放NAS设备中，NAS设备再级联磁盘阵列，然后多个服务器对这个NAS设备进行访问，操作，集中数据管理，提高利用率，解放服务器！

Ⅱ 什么是分布式存储系统

分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

(2)重庆编译分布式存储硬盘扩展阅读：

分布式存储，集中管理，在这个方案中，共有三级：

1、上级监控中心：上级监控中心通常只有一个，主要由数字矩阵、认证服务器和VSTARClerk软件等。

2、本地监控中心：本地监控中心可以有多个，可依据地理位置设置，或者依据行政隶属关系设立，主要由数字矩阵、流媒体网关、iSCSI存储设备、VSTARRecorder软件等组成；音视频的数据均主要保存在本地监控中心，这就是分布式存储的概念。

3、监控前端：主要由摄像头、网络视频服务器组成，其中VE4000系列的网络视频服务器可以带硬盘，该硬盘主要是用于网络不畅时，暂时对音视频数据进行保存，或者需要在前端保存一些重要数据的情况。

Ⅲ 什么是HDFS硬盘分布式存储

Namenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
文件操作，NameNode 负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟哪个DataNode联系，否则NameNode会成为系统的瓶颈。
副本存放在哪些DataNode上由 NameNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取时延
Namenode 全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

NameNode支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。块存储管理，在整个HDFS集群中有且只有唯一一个处于active状态NameNode节点，该节点负责对这个命名空间（HDFS）进行管理。

1、Name启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作；
2、一旦在内存中建立文件系统元数据映射，则创建一个新的fsimage文件（这个过程不需SecondaryNameNode）和一个空的editlog；
3、在安全模式下，各个datanode会向namenode发送块列表的最新情况；
4、此刻namenode运行在安全模式。即NameNode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)；
5、NameNode开始监听RPC和HTTP请求
解释RPC:RPC（Remote Procere Call Protocol）——远程过程通过协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议；
6、系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中；
7、在系统的正常操作期间，namenode会在内存中保留所有块信息的映射信息。
存储文件，文件被分成block存储在磁盘上，为保证数据安全，文件会有多个副本 namenode和client的指令进行存储或者检索block，并且周期性的向namenode节点报告它存了哪些文件的blo
文件切分成块（默认大小128M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）
NameNode 是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等
DataNode 在本地文件系统存储文件块数据，以及块数据的校验和。
可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。

NameNode启动流程
1、Name启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作；
2、一旦在内存中建立文件系统元数据映射，则创建一个新的fsimage文件（这个过程不需SecondaryNameNode）和一个空的editlog；
3、在安全模式下，各个datanode会向namenode发送块列表的最新情况；
4、此刻namenode运行在安全模式。即NameNode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败)；
5、NameNode开始监听RPC和HTTP请求
解释RPC:RPC（Remote Procere Call Protocol）——远程过程通过协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议；
6、系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中；
7、在系统的正常操作期间，namenode会在内存中保留所有块信息的映射信息。
HDFS的特点

优点：
1）处理超大文件
这里的超大文件通常是指百MB、数百TB大小的文件。目前在实际应用中，HDFS已经能用来存储管理PB级的数据了。

2）流式的访问数据
HDFS的设计建立在更多地响应"一次写入、多次读取"任务的基础上。这意味着一个数据集一旦由数据源生成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及数据集中的大部分数据，也就是说，对HDFS来说，请求读取整个数据集要比读取一条记录更加高效。

3）运行于廉价的商用机器集群上
Hadoop设计对硬件需求比较低，只须运行在低廉的商用硬件集群上，而无需昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求设计HDFS时要充分考虑数据的可靠性，安全性及高可用性。

缺点：
1）不适合低延迟数据访问
如果要处理一些用户要求时间比较短的低延迟应用请求，则HDFS不适合。HDFS是为了处理大型数据集分析任务的，主要是为达到高的数据吞吐量而设计的，这就可能要求以高延迟作为代价。

2）无法高效存储大量小文件
因为Namenode把文件系统的元数据放置在内存中，所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定。一般来说，每一个文件、文件夹和Block需要占据150字节左右的空间，所以，如果你有100万个文件，每一个占据一个Block，你就至少需要300MB内存。当前来说，数百万的文件还是可行的，当扩展到数十亿时，对于当前的硬件水平来说就没法实现了。还有一个问题就是，因为Map task的数量是由splits来决定的，所以用MR处理大量的小文件时，就会产生过多的Maptask，线程管理开销将会增加作业时间。举个例子，处理10000M的文件，若每个split为1M，那就会有10000个Maptasks，会有很大的线程开销；若每个split为100M，则只有100个Maptasks，每个Maptask将会有更多的事情做，而线程的管理开销也将减小很多。

1280M 1个文件 10block*150字节 = 1500 字节 =1.5KB
1280M 12.8M 100个 100个block*150字节 = 15000字节 = 15KB

3）不支持多用户写入及任意修改文件
在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。目前HDFS还不支持多个用户对同一文件的写操作，以及在文件任意位置进行修改。

四、HDFS文件读写流程
4.1 读文件流程

（1）打开分布式文件
调用分布式文件 DistributedFileSystem.open()方法。
（2）从 NameNode 获得 DataNode 地址
DistributedFileSystem 使用 RPC 调用 NameNode， NameNode返回存有该副本的 DataNode 地址， DistributedFileSystem 返回一个输入流 FSDataInputStream对象，该对象封存了输入流DFSInputStream。
（3）连接到DataNode
调用输入流 FSDataInputStream 的 read() 方法，从而输入流DFSInputStream 连接 DataNodes。
（4）读取DataNode
反复调用 read()方法，从而将数据从 DataNode 传输到客户端。
（5）读取另外的DataNode直到完成
到达块的末端时候，输入流 DFSInputStream 关闭与DataNode 连接，寻找下一个 DataNode。
（6）完成读取，关闭连接
即调用输入流 FSDataInputStream.close() 。

4.2 写文件流程

（1）发送创建文件请求：调用分布式文件系统DistributedFileSystem.create()方法；
（2） NameNode中创建文件记录：分布式文件系统DistributedFileSystem 发送 RPC 请求给namenode， namenode 检查权限后创建一条记录，返回输出流 FSDataOutputStream，封装了输出流 DFSOutputDtream；
（3）客户端写入数据：输出流 DFSOutputDtream 将数据分成一个个的数据包，并写入内部队列。 DataStreamer 根据 DataNode 列表来要求 namenode 分配适合的新块来存储数据备份。一组DataNode 构成管线(管线的 DataNode 之间使用 Socket 流式通信)
（4）使用管线传输数据： DataStreamer 将数据包流式传输到管线第一个DataNode，第一个DataNode 再传到第二个DataNode ,直到完成。
（5）确认队列： DataNode 收到数据后发送确认，管线的DataNode所有的确认组成一个确认队列。所有DataNode 都确认，管线数据包删除。
（6）关闭：客户端对数据量调用close（）方法。将剩余所有数据写入DataNode管线，并联系NameNode且发送文件写入完成信息之前等待确认。
（7） NameNode确认
（8）故障处理：若过程中发生故障，则先关闭管线，把队列中所有数据包添加回去队列，确保数据包不漏。为另一个正常DataNode的当前数据块指定一个新的标识，并将该标识传送给NameNode, 一遍故障DataNode在恢复后删除上面的不完整数据块. 从管线中删除故障DataNode 并把余下的数据块写入余下正常的DataNode。 NameNode发现复本两不足时，会在另一个节点创建一个新的复本

Ⅳ 什么是分布式存储

(4)重庆编译分布式存储硬盘扩展阅读：

分布式存储，集中管理，在这个方案中，共有三级：

1、上级监控中心：上级监控中心通常只有一个，主要由数字矩阵、认证服务器和VSTARClerk软件等。

Ⅳ 分布式存储的三种类型

有关分布式存储的三个基本问题

文件系统vs对象存储——选型和趋势

块存储、文件存储、对象存储这三者的本质差别是什么

分布式存储的应用场景相对于其存储接口，现在流行分为三种:

对象存储: 也就是通常意义的键值存储，其接口就是简单的GET、PUT、DEL和其他扩展，如七牛、又拍、Swift、S3

块存储: 这种接口通常以QEMU Driver或者Kernel Mole的方式存在，这种接口需要实现Linux的Block Device的接口或者QEMU提供的Block Driver接口，如Sheepdog，AWS的EBS，青云的云硬盘和阿里云的盘古系统，还有Ceph的RBD（RBD是Ceph面向块存储的接口）

文件存储: 通常意义是支持POSIX接口，它跟传统的文件系统如Ext4是一个类型的，但区别在于分布式存储提供了并行化的能力，如Ceph的CephFS(CephFS是Ceph面向文件存储的接口)，但是有时候又会把GFS，HDFS这种非POSIX接口的类文件存储接口归入此类。

Ⅵ 分布式存储系统Minio

多主机、多硬盘模式（分布式)

适合存储大容量非结构化的数据

该模式是Minio服务最常用的架构，通过共享一个access key和secret key,在多台（2-32）服务器上搭建服务，且数据分散在多块（大于4块，无上限）磁盘上，提供了较为强大的数据冗余机制（Reed-Solomon纠删码）。

Ⅶ 选择软件定义存储/分布式存储还是超融合一体机

其实问这个问题是没有搞清楚软件定义存储、分布式存储、超融合三者的关系。超融合对存储性能的要求如下：

软件定义 – 解除硬件绑定，可通过升级拓展更丰富的功能，自动化能力高
全分布式架构 – 扩展性好，消除单点故障风险
高可靠性 – 智能的故障恢复功能，丰富的数据保护手段
高性能 – 支持多种存储介质，充分挖掘和利用新式硬件的性能
高度融合 – 架构简单并易于管理

软件定义存储(SDS)是什么

SDS 的全称是 Software Defined Storage ，字面意思直译就是软件定义存储。关于 SDS 的定义可以参考全球网络存储工业协会（Storage Networking Instry Association，SNIA），SNIA 在 2013 正式把软件定义存储(SDS) 列入研究对象。

SNIA 对软件定义存储(SDS) 的定义是：一种具备服务管理接口的虚拟化存储。 SDS 包括存储池化的功能，并可通过服务管理接口定义存储池的数据服务特征。另外 SNIA 还提出软件定义存储(SDS) 应该具备以下特性：

自动化程度高 – 通过简化管理，降低存储基础架构的运维开销
标准接口 – 支持 API 管理、发布和运维存储设备和服务
虚拟化数据路径 – 支持多种标准协议，允许应用通过块存储，文件存储或者对象存储接口写入数据
扩展性 – 存储架构具备无缝扩展规模的能力，扩展过程不影响可用性以及不会导致性能下降
透明度 – 存储应为用户提供管理和监控存储的可用资源与开销

分布式存储是什么

关于分布式存储实际上并没有一个明确的定义，甚至名称上也没有一个统一的说法，大多数情况下称作 Distributed Data Store 或者 Distributed Storage System。

其中维基网络中给 Distributed data store 的定义是：分布式存储是一种计算机网络，它通常以数据复制的方式将信息存储在多个节点中。

在网络中给出的定义是：分布式存储系统，是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

尽管各方对分布式存储的定义并不完全相同，但有一点是统一的，就是分布式存储将数据分散放置在多个节点中，节点通过网络互连提供存储服务。这一点与传统集中式存储将数据集中放置的方式有着明显的区分。

超融合是什么

参考维基网络中的超融合定义：超融合基础架构（hyper-converged infrastructure）是一个软件定义的 IT 基础架构，它可虚拟化常见“硬件定义”系统的所有元素。HCI 包含的最小集合是：虚拟化计算（hypervisor），虚拟存储（SDS）和虚拟网络。HCI 通常运行在标准商用服务器之上。

超融合基础架构（hyper-converged infrastructure）与融合基础架构（converged infrastructure）最大的区别在于，在 HCI 里面，无论是存储底层抽象还是存储网络都是在软件层面实现的（或者通过 hypervisor 层面实现），而不是基于物理硬件实现的。由于所有软件定义的元素都围绕 hypervisor 实现，因此在超融合基础架构上的所有实例可以联合共享所有受管理的资源.

软件定义存储、分布式存储、超融合的区别与联系

软件定义存储(SDS) 的着重点在于存储资源虚拟化和软件定义，首先在形态上，软件定义存储(SDS)区别于传统的“硬件定义”存储，它不依赖专属的硬件，可以让存储软件运行在通用服务器上，可避免硬件绑定以及有效降低硬件采购成本；拥有标准 API 接口和自动化工具，有效降低运维难度。存储资源虚拟化，支持多种存储协议，可整合企业存储资源，提升存储资源利用率。但从定义上来说，但软件定义存储(SDS) 从部署形式上来看，并不一定是分布式或者是集中式的，也就是说 SDS 不一定是分布式存储（虽然常见的软件定义存储(SDS) 更多的是分布式的），SDS 存储内部有可能是单机运行的，不通过网络分散存放数据的，这种形式的软件定义存储(SDS) 的扩展性就可能有比较大的局限。

分布式存储，它的最大特点是多节点部署，数据通过网络分散放置。分布式存储的特点是扩展性强，通过多节点平衡负载，提高存储系统的可靠性与可用性。与软件定义存储(SDS)相反，分布式存储不一定是软件定义的，有可能是绑定硬件的，例如 IBM XIV 存储，它本质上是一个分布式存储，但实际是通过专用硬件进行交付的。那么就依然存在硬件绑定，拥有成本较高的问题。

超融合基础架构从定义中明确提出包含软件定义存储(SDS)，具备硬件解耦的能力，可运行在通用服务器之上。超融合基础架构与 Server SAN 提倡的理念类似，计算与存储融合，通过全分布式的架构，有效提升系统可靠性与可用性，并具备易于扩展的特性。

除此之外，超融合基础架构有更进一步的扩展，它强调以虚拟化计算（hypervisor）为核心，以软件定义的方式整合包括虚拟化计算，软件定义存储以及虚拟网络资源。从笔者来看超融合基础架构未来的可能性更多，可促进计算，存储，网络，安全，容灾等等 IT 服务大融合，降低IT 基础架构的复杂性，重新塑造”软件定义的数据中心”。

超融合基础架构的技术核心

超融合基础架构可以说综合了软件定义存储(SDS)，分布式存储，甚至是 Server SAN 的许多优良特性，并且不难看出这些概念中都离不开一个关键词——存储。很明显，超融合基础架构的技术核心是存储，存储承载用户数据，重要性不言而喻，另外超融合的各种高级功能（HA、在线迁移等等）都极度依赖存储能力，存储的扩展能力直接限制了超融合产品的扩展规模；存储的自身的可管理性也制约了平台的灵活性；考虑到超融合形态中，计算与存储是同一软件堆栈运行在服务器中的，它们之间是资源竞争的关系，因此在保障存储软件的稳定性和性能前提下，开销越少越好了。

最后，总结一下超融合基础架构对存储的要求，可作为考察超融合中存储能力的一些参考：

软件定义 – 解除硬件绑定，可通过升级拓展更丰富的功能，自动化能力高
全分布式架构 – 扩展性好，消除单点故障风险
高可靠性 – 智能的故障恢复功能，丰富的数据保护手段
高性能 – 支持多种存储介质，充分挖掘和利用新式硬件的性能
高度融合 – 架构简单并易于管理

Ⅷ 分布式存储需要做磁盘阵列吗云存储呢

感觉概念需要澄清一下：
1、与分布式存储向对应的概念是集中式存储。这两个概念用于描述用户数据存储状态。
2、简单地，可以将磁盘阵列理解为向计算机提供高性能、高可靠性、大容量存储空间的存储系统。分布式存储与集中式存储均可使用磁盘阵列作为计算机存储数据的专用设备。
3、云存储旨在整合用户IT设备为用户提供更强大、更丰富的增值功能的存储系统，较传统磁盘阵列而言，云存储概念更先进，但目前业界对云存储的定义还存在争议并为形成标准，属于技术预研领域。目前在云存储方面势头强劲的主要有：EMC、SUN、Symantec、HuaweiSymantec等专业存储厂商。

Ⅸ 分布式存储的数据安全吗

分布式存储数据比传统存储是安全很多的，杉岩数据存储产品就采取分布式存储的方法，将数据分散存储在多个独立的设备上，一方面完善了数据库的性能，提高了数据的读取效率，这对大数据来说十分重要;另一方面增加了大数据的安全性和可靠性，当有存储设备故障发生时，只会影响局部数据的存取，而不会使整个数据库瘫痪;同时分布式存储也使大数据具有很强的横向扩展能力，可以任意添加服务器节点，并且可以继续提供数据服务。

Ⅹ 集中式存储和分布式存储有什么区别

区别：

1、物理介质分布不同。

集中存储：物理介质集中布放。

分布存储：物理介质分布到不同的地理位置。

2、视频流上传不同：

集中存储：视频流上传到中心。

分布存储：视频流就近上传，对骨干网带宽没有什么要求;可采用多套低端的小容量的存储设备分布部署，设备价格和维护成本较低;小容量设备分布部署，对机房环境要求低。

3、对机房有要求不同：

集中存储：对机房环境要求高，要求机房空间大，承重、空调等都是需要考虑的问题。

分布存储：对骨干网带宽没有什么要求，可采用多套低端的小容量的存储设备分布部署，设备价格和维护成本较低;。小容量设备分布部署，对机房环境要求低。

(10)重庆编译分布式存储硬盘扩展阅读：

集中存储：

指建立一个庞大的数据库，把各种信息存入其中，各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。

分布式存储系统：

是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。

分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

网络-集中存储

网络-分布式存储系统

导航:首页 > 源码编译 > 重庆编译分布式存储硬盘

重庆编译分布式存储硬盘

其实问这个问题是没有搞清楚软件定义存储、分布式存储、超融合三者的关系。超融合对存储性能的要求如下：

软件定义存储(SDS)是什么

分布式存储是什么

超融合是什么

软件定义存储、分布式存储、超融合的区别与联系

与重庆编译分布式存储硬盘相关的资料