Calculadora Ceph

O que é Ceph

O Ceph é um sistema de armazenamento distribuído, ou seja, que espalha os dados por vários servidores ao mesmo tempo. Com isso ele oferece alta disponibilidade e cresce somando mais servidores, sem depender de um equipamento único cuja falha derrubaria tudo. A capacidade utilizável depende da estratégia de redundância escolhida em cada pool e da capacidade somada de todos os nós.

Conceitos básicos

Cada disco do cluster é chamado de OSD, a unidade básica que guarda os dados. Cada servidor é um nó e contém vários OSDs. Alguns nós também rodam serviços de coordenação: o MON (monitor), que mantém o mapa do cluster, e o MGR (gerente), que cuida de métricas e administração. O Ceph decide em quais OSDs e nós cada dado fica por meio de um algoritmo chamado CRUSH, que respeita a regra de separação configurada. O motor que grava em cada OSD se chama BlueStore.

O que cada campo significa

Pools: São agrupamentos lógicos de dados, cada um com sua estratégia de redundância. Na replicação, o Ceph guarda um número de cópias completas (por exemplo, três cópias). No erasure coding (codificação de apagamento), o dado é dividido em partes de dados mais partes de paridade, escrito como k mais m. A replicação é mais simples e rápida, e o erasure coding aproveita melhor o espaço.
Nós do cluster: Cada nó é um servidor com seus OSDs (discos). A capacidade bruta do cluster é a soma de todos os OSDs de todos os nós. O Ceph recomenda no mínimo três nós.
Domínio de falha: Define em que nível o Ceph garante que as cópias fiquem separadas. Na opção Host (recomendada), o cluster sobrevive à perda de um servidor inteiro. Na opção OSD, a proteção cobre apenas a falha de um disco isolado.
Alvo de ocupação: O Ceph avisa quando o cluster se aproxima do limite: o aviso de quase cheio (nearfull) ocorre por volta de 85 por cento e o de cheio (full) por volta de 95 por cento. Planeje a capacidade para ficar abaixo desses limites.
Aceleração de metadados (DB e WAL): São discos rápidos (SSD ou NVMe) dedicados aos metadados de cada OSD. O DB guarda o índice interno do OSD e o WAL é o registro de escrita à frente, que confirma gravações com segurança. Usá-los acelera muito OSDs em disco mecânico. Eles afetam desempenho e hardware, não a capacidade utilizável.
RAM por OSD: Define quanta memória cada OSD usa como cache (o parâmetro osd_memory_target, com padrão de 4 GiB). Serve para dimensionar a RAM dos servidores.

Como ler o resultado

Capacidade bruta: A soma de todos os OSDs do cluster, antes da redundância.
Capacidade utilizável: O espaço real para os dados, depois de aplicar a redundância de cada pool e o alvo de ocupação. Na replicação, é aproximadamente a capacidade bruta dividida pelo número de cópias. No erasure coding, é a capacidade bruta multiplicada por k e dividida por k mais m.
Tolerância a falhas: Quantos nós ou discos podem falhar sem perder dados, conforme o domínio de falha escolhido.

Replicação ou Erasure Coding

Replicação com três cópias: utilizável de cerca de um terço da capacidade bruta, tolera duas falhas. É a opção simples e rápida.
Replicação com duas cópias: utilizável de cerca de metade da capacidade bruta, tolera uma falha. É menos segura.
Erasure coding (por exemplo, 4 mais 2): utilizável igual à capacidade bruta vezes k dividido por k mais m, e tolera m falhas. Aproveita melhor o espaço, mas exige mais processamento.

Calculadora Ceph

Pools

Nós do cluster

Ajustes do cluster

O que é Ceph

Conceitos básicos

O que cada campo significa

Como ler o resultado

Replicação ou Erasure Coding

Recomendações e padrões

Pronto para escalar sua infraestrutura?