Inauguro con oggi una nuova categoria del mio blog, dedicata specificatamente alla Data Protection. Tratto da tempo l’argomento del salvataggio di dati, Backup e Disaster Recovery, ma finora non avevo mai pensato di crearne una sezione apposita. Troverete in questa categoria articoli generali, un pò di teoria, e prove pratiche con differenti soluzioni di Data Protection.
In questo primo articolo, volevo parlare delle “basi”, e in particolare della “Regola 3-2-1” dei backup, e come è possibile applicarla alla Data Protection di ambienti virtualizzati.
Innanzitutto, una breve introduzione su cosa è questa regola.
Non so sinceramente chi sia stato il primo ad averla enunciata e quando, ma esiste nell’ambiente informatico da molti anni e, nelle sue varie versioni, è riassumibile in modo perfetto da questa immagine (trovate qui l’originale, ripresa rispettando la licenza CC)
Il numero 3-2-1 viene invece spiegato così (potreste trovare differenti enunciazioni, ma più o meno tutte sono paragonabili):
3 copie di ogni dato che si vuole conservare
2 storage media differenti
1 sito remoto
3 Copie
L’errore più frequente che si rileva in un piano di Data Protection è la presenza di un’unica copia di backup. E la catastrofe annunciata e prevedibile, quando si deve recuperare un dato perso in produzione, è che questo sia mancante o corrotto anche nell’unica copia di backup disponibile, e che quindi lo stesso risulti definitivamente perso.
Se invece progettiamo di avere almeno 3 copie di ogni dato, una volta esclusa la prima copia che corrisponde al dato in produzione, per soddisfare la regola (e vivere sonni più tranquilli…) dovremo dotarci di almeno due copie di backup. In caso di corruzione della prima, avremo sempre la seconda copia a disposizione, elevando di molto la sicurezza dei nostri dati.
In un ambiente virtualizzato, dove tipicamente i backup vengono fatti dell’intero disco di una virtual machine, per risparmiare spazio è possibile, e consigliabile, usufruire di sistemi di deduplica. Inoltre, se pensiamo di creare la seconda copia di backup per clonazione della prima, possedere una copia deduplicata del dato permette di ridurre notevolmente la quantità di dati che deve essere movimentata.
Vi è infine una scelta da fare circa il metodo di creazione della terza copia: clonata dal primo backup, o direttamente dal dato di produzione? Esistono pro e contro di entrambe le soluzioni, vedimoli brevemente:
– una creazione indipendente delle due copie di backup, entrambe a partire dal dato di produzione, elimina il problema di una eventuale corruzione del primo backup. Se infatti creassimo la terza copia per clonazione, un’eventuale corruzione del dato ospitato nel primo backup verrebbe copiata pari-pari anche nella seconda copia, annullando ogni beneficio dato dalla duplice copia stessa.
– d’altra parte, con moli di dati in circolo sempre più consistenti, creare due copie distinte di backup vuol dire leggere due volte lo stesso dato di produzione, una per ogni backup. Questo vuol dire raddoppiare l’I/O di lettura sullo storage di produzione, ma anche raddoppiare la durata complessiva dei backup, con conseguente innalzamento dei tempi di RPO.
La soluzione preferita solitamente, per ridurre i costi, è la clonazione. E’ ovviamente fondamentale, proprio per i motivi espressi poco fa, attuare una serie di controlli (tra gli altri, i test di ripristino che in pochi fanno…) atti a garantire che i dati salvati siano consistenti e leggibili.
2 Media
Utilizzare due differenti media di salvataggio protegge il piano di Data Protection da problemi specifici di uno dei media. DVD che “evaporano”, nastri smagnetizzati, aggiornamenti firmware di NAS andati male, la lista di possibili danni che i media dove salviamo i backup possono subire è lunghissima. Ma se stiamo utilizzando due media differenti, le possibilità di avere un danno “nello stesso momento” ad entrambi si riducono notevolmente.
In passato, i sistemi di Data Protection si basavano esclusivamente su nastro, e il secondo media non era contemplato. Con la riduzione dei costi dei dischi, e l’avvento dei sistemi di deduplica, il costo per salvare i dati di backup su disco si è notevolmente ridotto, e oggi è possibile e anzi consigliato fare in modo che il primo media di backup sia un’unità a disco. Come detto prima, la mole di dati di un ambiente virtualizzato moderno è notevole, e quindi il disco è l’unica alternativa seria per garantire ripristini in tempi ragionevoli di queste grandi moli di dati.
Per rientrare in parte dei costi di uno storage dedicato ai backup, è possibile scegliere strade alternative per il secondo media. La soluzione ottimale è ovviamente l’uso di due NAS per entrambe le copie, in quanto la loro velocità di scrittura e lettura agevola sia i backup che i ripristini. Se infatti c’è una corruzione nel primo media, un secondo NAS permette di garantire ugualmente i tempi di ripristino anche dovendolo effettuare dal secondo media.
Bisogna però tenere presenti diverse considerazioni:
– se scegliamo due NAS identici per entrambe le copie, e questo solitamente capita perchè il produttore propone degli sconti maggiori rispetto all’acquisto di due prodotti differenti, premuriamoci quantomeno di gestirli come fossero due entità totalmente distinte. Ad esempio, non aggiornate i loro firmware contemporaneamente: un firmware bacato bloccherebbe infatti l’operatività di entrambi i sistemi.
– Due NAS identici sono da preferire unicamente se offrono sistemi di replica asincrona tra i due all’interno della loro dotazione software. Altrimenti ci si espone unicamente ai rischi indicati al punto precedente senza averne un reale beneficio
– Se scegliere di possedere due media differenti, è molto probabile che il secondo sia un sistema a nastri. Ricordatevi le enormi differenze di velocità nell’accesso ai dati tra il nastro e il disco quando dichiarerete i tempi di ripristino che la vostra infrastruttura di backup sarà in grado di sostenere.
– se dovete effettuare dei salvataggi storici, al di fuori della normale politica di backup, nel caso dei nastri ricordatevi di mantenere in azienda il sistema che permetta di leggere quei nastri. Ho visto a volte dei nastri conservati per anni totalmente per nulla, dato che non si possedeva più il lettore di quegli stessi nastri. In questo caso i sistemi LTO, con la loro retrocompatibilità, garantiscono la possibilità di rileggere quei vecchi nastri anche dopo parecchio tempo
– prevedete, ogni tanto, di rileggere quei nastri per verificare che siano in buono stato, ed eventualmente riversare il loro contenuto su nastri più nuovi
– i sistemi WORM come CD e DVD non sono eterni
– valutate la possibilità di un sistema di backup online offerto da un cloud provider, utile anche per soddisfare il punto seguente.
1 sito remoto
Se subite un incendio o altre calamità, rischiate di perdere tutti i vostri dati di produzione. Per poterne garantire il ripristino, è bene che almeno una delle due copie di backup siano situate in un sito remoto, abbastanza lontano dal sito primario da non essere anch’esso affetto da queste calamità.
Aziende che possiedono più sedi possono predisporre una sede secondaria come sito remoto per i propri backup; per quelle società che invece possiedono solo una sede, la soluzione più conveniente e al tempo stesso efficiente è usare un sistema di online backup offerta da un provider. Questa soluzione evita di dover acquistare hardware dedicato, ma di pagare unicamente lo spazio disco offerto dal provider, secondo le proprie necessità.
Esistono moltissimi provider che offrono questi servizi, valutare quale sia per voi più conveniente basandovi su alcune caratteristiche:
– possibilità di cifrare i backup tramite il software che solitamente mette a disposizione il provider. I vostri dati verranno infatti salvati in un sistema informatico che non è sotto il vostro controllo; la cifratura garantisce che altri clienti o anche il personale del provider non possano accedere ai vostri dati. Dovrete però gestire con assoluta cura le chiavi di cifratura, se le perdete non sarete più in grado di accedere ai vostri backup
– vicinanza relativa alla vostra azienda: a differenza del salvataggio delle proprie home directory, i backup di una infrastruttura virtualizzata sono decisamente corposi. Il loro upload verso il provider quindi più richiedere inizialmente un tempo notevole, e quindi la possibilità di spedire un disco esterno con al suo interno i backup vi permette di iniziare a fare backup remoti dopo poco tempo, invece di passare il primo mese di uso del servizio unicamente ad inviare la prima copia di backup
– questo è ancora più importante per i ripristini: se dovete in caso estremo ricostruire la vostra intera infrastruttura, piuttosto che avviare un download di svariati GB se non TB, è molto più conveniente recarsi presso il provider e prelevare una copia dei propri dati tramite un disco esterno.
– infine, valutate bene l’affidabilità tecnologica e finanziaria del provider: molte società di servizi si stanno “buttando” in questo nuovo business, e si improvvisano provider. Dovete capire se a distanza di qualche anno questo provider offrirà ancora il servizio perchè per lui è proficuo, oppure se c’è il rischio che dopo un periodo di prova in cui offriva prezzi molto interessanti per attirare nuovi clienti, il servizio stesso possa essere dismesso, e voi siete costretti a cercarvi un nuovo fornitore.
Conclusione
La protezione dei dati di un ambiente virtualizzato passa per l’implementazione di differenti soluzioni, tutte necessarie, complementari e coordinate. Possedere unicamente un backup dei dati di produzione non è una soluzione sufficiente e può portare a perdite dolorose, sia in termini di efficienza operativa che economiche.
Nonostante una complessità maggiorata, una soluzione come quella descritta è l’unica in grado di garantire una elevata protezione dei propri sistemi virtualizzati.