27 gennaio 2010

Linux - Lustre - Gestire una corruzione del filesystem Lustre

Considerando il filesystem lustre montato su /lustrefs e che i server sono così organizzati:

MGS -> /dev/sdb1 -> /lustre/mgs
MDT -> /dev/sdc1 -> /lustre/mdt
OST -> /dev/sdd1 -> /lustre/ost


Smontare lustre da tutti i client con il comando:

#umount /lustrefs

se il filesystem risulta busy lanciare il comando:

#umount -fl /lustre

Smontare dai server tutte le componenti OST, MDT, MGS:

#umount /lustre/ost
#umount /lustre/mdt
#umount /lustre/mgs

eseguire il comando e2fsck -f sui relativi device:

#e2fsck -f /dev/sdb1
#e2fsck -f /dev/sdc1
#e2fsck -f /dev/sdd1


rimontare le componenti di lustre:

#mount -t lustre /dev/sdb1 /lustre/mgs
#mount -t lustre /dev/sdc1 /lustre/mdt
#mount -t lustre /dev/sdd1 /lustre/ost 

effettuare l'abort recovery sugli ost.

con il comando lctl dl | grep obdfilter si verifica il numero della device (è la prima colonna), con il seguente comando si effetta l'abort:

lctl --device >n device< abort_device

occorre a questo punto far collegare un client che forzerà il recovery del client stesso, processo che necessita almeno di 300 secondi. Il count down lo troviamo nel /var/log/messages.

Più informazioni si possono trovare Fsck_Support

Nessun commento: