多副本

Ceph分布式存储采用数据多副本备份机制来保证数据的可靠性，默认保存为3个副本（可修改）。Ceph采用 CRUSH算法，在大规模集群下，实现数据的快速、准确存放，同时能够在硬件故障或扩展硬件设备时，做到尽可能小的数据迁移，其原理如下：

当用户要将数据存储到Ceph集群时，数据先被分割成多个object（每个object一个object id，大小可设置，默认是4MB），object是Ceph存储的最小存储单元。
由于object的数量很多，为了有效减少了object到OSD的索引表、降低元数据的复杂度，使得写入和读取更加灵活，引入了pg（Placement Group）：PG用来管理object，每个object通过Hash，映射到某个pg中，一个pg可以包含多个object。
Pg再通过CRUSH计算，映射到OSD中。如果是三副本的，则每个pg都会映射到三个OSD，保证了数据的冗余。
图1 CRUSH算法资源划分示意图（以2副本为例）

CRUSH算法并不是绝对不变的，会受其他因素影响，影响因素主要有：

父主题： 公共特性