Failover Clustering (III)

 

Configurações de Quórum do Cluster


Em termos simples, o quórum de um cluster é o número de elementos que devem estar online para que o cluster continue em funcionamento. Os servidores de um cluster necessitam de um recurso de quórum para funcionarem e este, como qualquer outro recurso, é um recurso que só pode ser possuído por um servidor de cada vez e pelo qual os servidores podem negociar a sua posse. Com efeito, cada elemento pode lançar um "voto" para determinar se o cluster continua a funcionar. Os elementos votantes são nós ou, nalguns casos, um disco testemunha ou ficheiro partilhado testemunha. O recurso de quórum é usado para armazenar a cópia definitiva da configuração do cluster de modo que, independentemente de qualquer sequência de falhas, a configuração do cluster será sempre consistente. Cada elemento votante (com excepção do ficheiro partilhado testemunha) contém uma cópia da configuração do cluster e o serviço de cluster trabalha de modo a manter todas as cópias constantemente sincronizadas.

Quando ocorrem problemas de rede, estes podem interferir na comunicação entre os nós do cluster. Um pequeno grupo de nós pode ser capaz de comunicar em conjunto através de uma parte da rede mas não ser capaz de comunicar com outro grupo diferente de nós noutra parte da rede. Isso pode causar problemas sérios. Nesta situação dividida, pelo menos um dos conjuntos de nós deve parar de funcionar como um cluster.A negociação pelo recurso de quórum permite que os servidores do cluster evitem situações de divisão (split-bain) em que os servidores estão activos e julguem que os outros servidores estão em baixo.

Para evitar os problemas que são causados por uma divisão no cluster, o software do cluster exige que qualquer conjunto de nós a funcionar como um cluster tem que usar um algoritmo de votação para determinar se, num dado momento, esse conjunto tem quórum. Como um determinado cluster tem um conjunto específico de nós e uma configuração de quórum específica, o cluster saberá quantos "votos" constitui uma maioria (ou seja, um quórum). Se o número cair abaixo da maioria, o cluster pára de funcionar. Os nós continuarão a ouvir a presença de outros nós, no caso de outro nó aparecer novamente na rede, mas os nós não começarão a funcionar como um cluster até que o quórum exista novamente.


Note-se que o funcionamento pleno de um cluster depende não apenas do quórum, mas também da capacidade de cada nó para suportar os serviços e aplicações que fazem failover para esse nó. Por exemplo, um cluster que tem cinco nós ainda poderia ter quórum após dois nós falharem, mas cada um dos restantes nós apenas continuaria a atender clientes se tivesse capacidade suficiente para suportar os serviços e aplicações que passaram para ele.   

Maioria de nós

 
Este é o tipo de quórum mais fácil de entender e é recomendado para clusters com um número ímpar de nós (3 nós, 5 nós, etc.). O modo de Maioria de Nós atribui votos apenas aos nós do cluster; cada nó tem um voto e assim há um número ímpar de total de votos no cluster. Isto significa que o cluster pode suportar falhas de metade dos nós (arredondando para cima) menos um.
 
Maioria de nós
 
Se houver uma divisão entre dois subconjuntos de nós, cada nó que está disponível, e em comunicação, pode votar e o subconjunto com mais de metade dos nós manterá o quórum.
 
Maioria de nós
 
Por exemplo, se um cluster de 5 nós se dividir num subconjunto de 3 nós e num subconjunto de 2 nós, o subconjunto de 3 nós vai ficar online e o subconjunto de 2 nós offline, até que se possa se voltar a ligar com os outros 3 nós.
 

Maioria de Nó e Disco

 
Esta é configuração de quórum mais utilizada uma vez que funciona bem com clusters de 2 e 4 nós, que são as implementações mais comuns. Este modo é preferível em situações com um número par de nós que têm armazenamento de dados partilhado disponível, pois no modo Maioria de Nó e Disco são atribuidos votos a cada nó, bem como a um disco partilhado chamado disco testemunha (também conhecido como o disco "quórum '). Uma vez que há um número par de nós e um voto adicional no disco testemunha, no total haverá um número ímpar de votos. O cluster funciona apenas com uma maioria dos votos, ou seja, mais da metade.
 
Maioria de Nó e Disco
 
Este disco testemunha é simplesmente um pequeno disco de cluster que está no grupo de armazenamento disponível do cluster. Esse disco é altamente disponível e pode fazer failover entre os nós. É considerado parte do grupo Cluster Resources Core, no entanto é geralmente escondido no Failover Cluster Manager uma vez que não há necessidade de interagir com ele.
 
Maioria de Nó e Disco
 
Este modo pode sustentar falhas de metade dos nós (arredondando para cima) se o disco testemunha permanecer online ou falhas de metade dos nós (arredondando para cima) menos um, se o disco testemunha ficar offline ou falhar.
 
Maioria de Nó e Disco
 
Maioria de Nó e Disco
 
Se há uma divisão entre dois subconjuntos de nós, o subconjunto com mais de metade dos votos manterá o quórum. Por exemplo, se tem quatro nós que se tornam igualmente divididos então, apenas um dos grupos pode ter o disco testemunha, o que dá a esse grupo um voto adicional. O grupo que possui o disco testemunha pode, portanto, formar quórum e oferecer serviços do cluster.
 

Maioria de Nó e Partilha de Ficheiros

 
Este modo funciona exactamente da mesma forma que o modo Maioria de Nó e Disco com a ressalva de que o disco testemunha é substituído por uma partilha de ficheiro a que todos os nós do cluster podem aceder em vez de um disco no armazenamento do cluster. Esta partilha de ficheiro é chamada partilha de ficheiros testemunha (File Share Witness ou FSW) e é simplesmente uma partilha de ficheiro em qualquer servidor na mesma floresta AD a que todos os nós do cluster têm acesso. Um nó no cluster bloqueia a partilha de ficheiro para ser o seu "dono" e outro nó vai substitui-lo neste bloqueio se o nó proprietário original falhar. Nesta configuração cada nó recebe um voto e, adicionalmente, a partilha de ficheiro remoto recebe um voto.
 
Maioria de Nó e Partilha de Ficheiros
 
Este modo é recomendado em caso de existir um número par de nós e não existir armazenamento partilhado disponível. Num servidor autónomo, a partilha de ficheiro por si só não é altamente disponível no entanto, esta pode também ser colocada numa partilha de ficheiros num cluster independente, dando-lhe a capacidade de failover entre os nós. É importante não colocar este voto nem num nó, nem dentro de uma máquina virtual, no mesmo cluster, porque perder esse nó iria fazer perder o voto FSW, perdendo assim dois votos numa única falha. Um único servidor de ficheiros pode hospedar múltiplos FSWs para vários clusters. A partilha de ficheiros testemunha pode votar mas não contém uma réplica da base de dados de configuração do cluster nem contêm informações sobre qual a versão mais recente da base de dados de configuração do cluster.
Maioria de Nó e Partilha de Ficheiros


















Esta configuração de quórum é normalmente usada em clusters alojados em múltiplos locais (multi-site clusters). Geralmente estes clusters têm dois sites com o mesmo número de nós em cada site, dando um número par de nós. Adicionando este voto adicional de um terceiro site, há um número ímpar de votos no cluster, à custa de muito pouco em comparação com a implantação de um site terceiro com um nó de cluster activo e um outro controlador de domínio. Isto significa que qualquer um dos sites ou a FSW pode ser perdidos e o cluster pode ainda manter quórum. Por exemplo, num cluster com dois nós no Site1, 2 nós no Site2 e uma FSW no site3, há um total de 5 votos.

Maioria de Nó e Partilha de Ficheiros
 
Maioria de Nó e Partilha de Ficheiros

Se houver uma divisão entre os sites, um dos nós num local possui o bloqueio para a FSW de modo que esse site terá um total de 3 votos e vai ficar online. O site com 2 nós ficará offline até que se possa voltar a ligar com os outros 3 votantes.
 

Sem Maioria: Só Disco

 
Este tipo de quórum estava disponível no Windows Server 2003 e tem sido mantido por razões de compatibilidade. O cluster tem quórum apenas com um único nó disponível desde que esteja em comunicação com um disco específico no armazenamento do cluster e nesta situação apenas os nós que estão em comunicação com esse disco podem integrar o cluster.

image
 
Num cluster com a configuração Só Disco, o número de nós não afecta a forma como o quórum é alcançado; o disco é o quórum. No entanto, se a comunicação com o disco for perdida, todo o cluster se torna indisponível. Este tipo de cluster pode sustentar falhas de todos nós, excepto um (se o disco estiver online). No entanto, essa configuração não é recomendada porque o disco pode ser um ponto único de falha e é importante considerar se esse último nó remanescente tem capacidade para lidar com todas as cargas de trabalho que se mudaram para ele a partir de outros nós.
 
image
As figuras ilustram como um cluster que usa apenas o disco como o determinador de quórum pode manter-se em funcionamento apesar de estar apenas um nó disponível e em comunicação com o disco de quórum.
 
image

Também se mostra como o cluster não pode ser executado se o disco de quórum não estiver disponível (ponto único de falha). Para este cluster, que tem um número ímpar de nós, o mode Maioria de Nós seria o modo de quórum recomendado.
 

Escolher o modo de quórum para um determinado cluster


Descrição do cluster
Recomendação de quórum
Número ímpar de nós Maioria de nós
Número par de nós, mas não um cluster multi-site Maioria dos Nós e Disco
Número par de nós, cluster multi-site Maioria de Nó e Partilha de Ficheiros
Número par de nós sem armazenamento partilhado Maioria de Nó e Partilha de Ficheiros
 
Um cluster com vários sites é aquele em foi feito que um investimento para colocar conjuntos de nós e armazenamento em locais fisicamente separados, proporcionando uma solução de recuperação de desastres.