Avant, comme je pense beaucoup d'entre nous, je me contentais d'attendre la panne

Comme ce que j'ai pu lire sur la surveillance des disques durs ne correspond pas trop à mon vécu j'ai pensé qu'il pouvait être utile de partager nos expériences.
Nous pouvons commencer par une explication permettant de lire les rapports SMART que j'aurais aimé trouver.
Pour faire bref, j'ai fait quelques erreurs d'interprétation

Voici le rapport Smart d'un disque neuf.
- Code: Tout sélectionner
RAID-22 (Western Digital Caviar Green - HD 3"5 - 3000 Go )
27/12/2012 14:14:40
ID Nom de l'attribut Actuel Pire Limite Valeurs brutes
1 Raw Read Error Rate 100 253 051 0
3 Spin Up Time 177 177 021 6133
4 Start Stop Count 100 100 000 13
5 Reallocated Sector Ct 200 200 140 0
7 Seek Error Rate 100 253 000 0
9 Power On Hours 100 100 000 0
10 Spin Retry Count 100 253 000 0
11 Calibration Retry Count 100 253 000 0
12 Power Cycle Count 100 100 000 13
192 Power-Off Retract Count 200 200 000 11
193 Load Cycle Count 200 200 000 13
194 Temperature Celsius 133 122 000 17
196 Reallocated Event Count 200 200 000 0
197 Current Pending Sector 200 200 000 0
198 Offline Uncorrectable 100 253 000 0
199 UDMA CRC Error Count 200 253 000 0
200 Multi Zone Error Rate 100 253 000 0
Pour chaque ligne, quatre colonnes de valeurs, actuelle, pire, limite et brute.
Suivant les constructeurs les valeurs initiales peuvent varier entre 100 (généralement) 200 et 253.
Elles baissent au fur et à mesure de l'utilisation du disque.
Si la valeur actuelle devient égale à 1 ou inférieure à la valeur limite, quel que soit l'attribut concerné, il faut agir sans tarder

L'interprétation de la valeur brute dépend de la l'attribut concerné.
Parfois les constructeurs sont optimistes laissant la valeur actuelle à 100 ou à 99 alors qu'il y a des raisons de s'inquiéter

Regardons maintenant ce qu'est devenu notre disque au bout de deux ans.
- Code: Tout sélectionner
RAID-22 (Western Digital Caviar Green - HD 3"5 - 3000 Go )
18/1/2015 15:26:42
ID Nom de l'attribut Actuel Pire Limite Valeurs brutes
1 Raw Read Error Rate 200 200 051 0
3 Spin Up Time 179 177 021 6033
4 Start Stop Count 100 100 000 451
5 Reallocated Sector Ct 200 200 140 0
7 Seek Error Rate 100 253 000 0
9 Power On Hours 098 098 000 1644
10 Spin Retry Count 100 100 000 0
11 Calibration Retry Count 100 100 000 0
12 Power Cycle Count 100 100 000 260
192 Power-Off Retract Count 200 200 000 33
193 Load Cycle Count 198 198 000 7046
194 Temperature Celsius 127 110 000 23
196 Reallocated Event Count 200 200 000 0
197 Current Pending Sector 200 200 000 0
198 Offline Uncorrectable 200 200 000 0
199 UDMA CRC Error Count 200 200 000 0
200 Multi Zone Error Rate 200 200 000 0
Avec 1644 heures de fonctionnement (attribut 9 - power on hours) on a juste entamé de 2% sa durée de vie et de 1% le nombre de cycles (attribut 193 - Load Cycle Count).
Si certains WD-Green sont pris d'une frénésie de cycles qui peut réduire leur durée de vie ce n'est pas le cas de ce dernier.
Tout le reste est à l'état neuf.
Références
Voici les principales références que j'ai utilisées pour interpréter les attributs :
- - Article en français de Wikipedia
- Plus complète (mais en anglais) la liste des attributs mise en ligne par Cropel
- La base de connaissance d'Acronis
Pour consulter l'état des disques, Smartctl est incontournable, présent dans nos NAS, et disponible sur nos PC :
Consultation des informations Smart - Exemples
- - Synology - DSM 5.1
- Synology - DSM 6.0 - Exécution de Smartctl (Terminal)
- Synology - DSM 6.0 - Planification de Smartctl
- QNAP - QTS 4.1
- Windows : HDD Guardian
- Linux, Mac, Windows - GSmartControl
Test, diagnostic et réparation de disques
Attribut par attribut
En théorie il ne faudrait prendre en compte que les valeurs de l'attribut (la première colonne) proches du seuil.
Hélas il y a d'autres cas de figure à prendre en compte dans lesquels il faut s'intéresser à l'analyse de la valeur brute.
- Attribut 5 - Reallocated Sector Count
Attribut 9 - Power on Hours
Attribut 184 - End to end Error
Attribut 187 - Reported Uncorrectable Errors.
Attribut 188 - Command Timeout
Attribut 193 - Load Cycle Count
Attribut 197 - Current Pending Sector Count - ATTENTION
Attribut 198 - Offline Uncorrectable
Attribut 199 - UDMA CRC Error Count
Nous n'avons pas de retour d'expériences sur les autres attributs.
Etudes de cas (à rédiger ...)
Il s'agit de déterminer dans quelle mesure l'analyse des rapports SMART permet d'anticiper.
Dans le cas idéal on peut suivre un HD de la bonne santé à la panne.
Voir le signe de la panne future apparaître dans les rapports SMART.
Si ce n'est pas possible, faute de rapport SMART avant le premier signe noir, on peut suivre la vie du HD, du plus ancien rapport connu à la panne.
Enfin les rapports après panne peuvent permettre, malgré tout, de détecter les attributs défectueux, sans qu'il soit cependant possible de savoir si le défaut est ou non apparu avant la panne.