Hai semuanya, apa kabar? Kali ini kita akan ulik Proxmox VE lagi. Kita akan coba hapus salah satu node dari cluster Proxmox VE, lalu kita simulasikan keadaan seandainya salah satu node-nya down.
Menghapus Node 3
Lab yang digunakan terdiri dari pve1, pve2, dan pve3 (nested). Lalu, kita akan hapus node pve3. Kondisi awalnya, pve3 sudah dalam keadaan mati. Gambar di bawah ini menampilkan kondisi cluster saat kita jalankan perintah pvecm status.

Pada tampilan di atas, konfigurasinya masih menampilkan nilai Quorate atau bisa dibilang cluster masih layak untuk dijalankan (kondisi node hidup masih 2/3).
Pada node yang masih hidup (pve1/pve2), jalankan perintah berikut untuk menghapus pve3:
pvecm delnode pve3
Apabila terdapat pesan error seperti Could not kill node (error = SC_ERR_NOT_EXIST) adalah hal wajar karena node sudah mati dan tidak merespon cluster heartbeat. Sistem akan tetap melanjutkan proses tersebut.
Pada gambar di bawah, saat kita jalankan perintah pvecm status, jumlah node (expected & highest votes) sudah berjumlah 2.

Walaupun pve3 sudah tidak ditampilkan pada web UI, bisa jadi masih ada file/direktori pada sistem. Kita akan hapus secara manual.
Jalankan perintah berikut:
# Cek folder nodes
ls /etc/pve/nodes
# Hapus folder node yang sudah tidak ada
rm -rf /etc/pve/nodes/pve3
Gambar di bawah ini menampilkan direktori pve3 sudah berhasil dihapus.

Apabila kita cek menu Datacenter> Cluster juga bisa kita lihat bahwa anggota cluster tersisa pve1 dan pve2.

Simulasi Node Down
Setelah cluster hanya tersisa dua nodes, kita akan lihat apa yang terjadi pada node dan VM yang masih hidup. Kondisi awalnya pve1 dan pve2 hidup dan ada satu buah VM (ID 100 – AlmaLinux) yang terletak pada pve1.

Kita akan matikan pve2 (nested semua).

Pada web UI, pve2 sudah berubah jadi warna merah. Namun pve1 dan VM 100 masih hidup. Saya juga jalankan ping pada VM dan masih berhasil. Proses internal VM bisa dikatakan masih berjalan lancar selama host-nya masih hidup.

Kita cek juga status cluster dengan perintah pvecm status. Kita bisa lihat bahwa total votes bernilai 1 dan quorum memiliki flag Activity blocked.

Berarti… ada hal yang tidak bisa dilakukan. Ayo kita cek.
Kita akan coba untuk ubah resource yang ada pada VM. Misalnya RAM.

Awalnya, VM memiliki RAM sebesar 4 GiB. Kita akan coba ubah jadi ~6 GiB.


Ternyata tidak bisa. Ada pesan error yang isinya Permission denied (500).
Kita coba lagi ubah ukuran disk dari VM.

Sama, tidak bisa juga. Dan sama-sama ada pesan error yang isinya Permission denied (500).
Kita coba untuk matikan VM yang berjalan. Klik kanan pada VM lalu pilh Shutdown/Stop.

Berhasil. Namun, apabila kita coba untuk nyalakan kembali VM-nya:

Gagal. Ada pesan error yang isinya cluster not ready – no quorum? (500).
Mengapa Bisa Begitu?
Hal tersebut dapat terjadi, kaitannya dengan Quorum. Dalam cluster dengan anggota sebanyak 2 nodes, Proxmox membutuhkan suara mayoritas (50% +1) untuk mengambil keputusan write ke konfigurasi.
Apabila hanya satu node yang menyala, maka nilainya tidak memenuhi syarat 50% +1. Akibatnya, cluster masuk ke Read-Only mode. Kita bisa melihat kondisi dan status dari cluster, namun kita pretty much tidak dapat mengubah konfigurasi karena sistem tidak yakin apakah dia benar benar host yang menang/hidup pada jaringan tersebut.
Penutup
Membangun cluster 2 node memang praktis untuk lab kecil, tapi sangat riskan untuk produksi karena tidak adanya toleransi kegagalan (fault tolerance) pada quorum. Minimal gunakan 3 node, atau gunakan QDevice (External Vote) jika terpaksa hanya punya 2 server.
Tulisan kali ini sampai di sini dulu ya. Sampai jumpa. Bye.

