Mémoire partagée » ZFS

ZFS est un nouveau genre de système de fichiers, intègrant également des fonctions traditionnellement dévolues aux outils de gestion de volumes. Le projet a été initié chez Sun en 2000, sous la houlette de Jeff Bonwick, pour remplacer un UFS qui, il faut le reconnaître, vieillissait plutôt mal. L'utilisation massive de Veritas Volume Manager (aka Symantec Storage Foundation) en entreprise, voire même de Solaris Volume Manager, indique bien que ce système de fichiers ne répondait plus vraiment aux besoins des utilisateurs.

Voyons donc un peu de quoi il retourne, et notamment quelles innovations ZFS apporte.

Pool et dataset

Les pools

Le concept fondamental de ZFS et la notion de pool. Il s'agit d'un espace de stockage qui sera vu comme un seul ensemble, très similaire en cela à un disk group (VxVM) ou volume group (LVM), à ceci près qu'il peut agréger non seulement des disques, mais également des partitions ou même des fichiers.

Les datasets

Le dataset est l'unité logique de base de ZFS, là encore très similaire aux volumes (VxVM) ou logical volumes (LVM). Au sein d'un pool donné, les datasets peuvent être structurés hiérarchiquement, c'est-à-dire qu'un dataset peut être rattaché non pas à la racine du pool, mais à un dataset déjà existant. Ce mécanisme permet à tous les descendants d'un dataset d'hériter des propriétés de ses parents.

Un dataset peut bien entendu héberger une structure de fichiers ZFS, mais il peut également être utilisé en raw device, par exemple pour en faire un espace de swap.

Gestion de la volumétrie

Jusque-là, on pourrait se dire qu'il n'y a rien de bien nouveau, et qu'il ne s'agit que d'un outil de gestion de volumes de plus. Pourtant, il y a déjà une différence majeure : au sein d'un pool, l'espace est partagé entre tous les datasets, il n'y a pas besoin de définir une taille à la création du dataset, il occupe l'espace qui lui est nécessaire, bien entendu dans la limite des stocks disponibles (la taille du pool au maximum, ou moins si des quotas ont été mis en place). Fini les extensions de filesystems! Terminé les problèmes de provisionnement d'espace et le gâchis qui peut en résulter!

Fiabilité et performances

Les avancées de ZFS ne se limitent pas à la gestion de l'espace disque, on y retrouve également plusieurs apports notables dans le domaine de la fiabilité.

Des données toujours cohérentes

ZFS garantit que les données sur le disque seront toujours cohérentes, même en cas de crash du système. Il se repose pour cela sur un mécanisme appelé copy on write, ou simplement COW. Il s'agit d'utiliser un modèle transactionnel pour toute écriture sur le disque.

En pratique, quand ZFS doit écrire dans un fichier, par exemple, il n'écrase pas les données existantes, mais utilise de nouveaux blocs. Une fois que les nouvelles données sont écrites, les blocs indirects associés sont mis à jour (ceux-ci ne contiennent pas de données à proprement parler, mais des pointeurs vers d'autres blocs), et on remonte ainsi la hiérarchie jusqu'à l'uberblock.

Ce dernier est l'élément contenant les informations qui permettent d'accéder à l'ensemble des données du pool, conceptuellement similaire au superblock d'UFS. L'opération de mise à jour de l'uberblock est atomique, autrement dit, soit elle a lieu complètement, soit elle n'a pas lieu du tout. Si elle a lieu complètement, ce sont les nouvelles données qui sont référencées et cohérentes. Si elle n'a pas lieu du tout, ce sont les anciens blocs qui sont toujours référencés, et, bien que les nouvelles données aient été écrites sur le disque (sans écraser les anciennes), tout se passe comme si cette écriture n'avait pas eu lieu.

Niveaux de réplication

ZFS propose trois modes de réplication des données :

Pas de réplication : l'ensemble des devices définis dans le pool sont simplement concaténés
Miroir : dis-moi qui est la plus belle (oui, à part ça, c'est exactement ce que vous pensez que c'est)
Raid-Z : une alternative au Raid-5, basée sur le même concept (à savoir, l'utilisation d'un bit de parité par XOR), mais utilisant une profondeur de stripe variable, et conçu pour éviter le fameux "trou" du Raid-5 (le Raid-5 write hole)
- Chaque bloc Raid-Z est traité comme un stripe complet, quelle que soit la taille du bloc. Ainsi, toute écriture de bloc est traitée comme un full-stripe write, d'où un gain de performance (pas de ead-modify-write)
- La gestion transactionnelle des opérations d'écriture (COW) permet de garantir qu'un full-stripe write aura lieu complètement ou pas du tout, puisque tout se passe au sein du même pool

Le Raid-Z

RAID 5

partial-stripe writes

read-modify-write

full-stripe write

Self-healing : checksum et scrubbing

self-healing

scrubbing

Le pipeline d'I/O

résultats des premiers tests de performance

Fonctions avancées

Quotas et réservations

Clones et snapshots

snapshot

Compression

214 Comments »

ZFS – présentation