[Metalab] Projektbörse - Storage Projekt

Andreas.Trawoeger at wgkk.at Andreas.Trawoeger at wgkk.at
Wed Mar 22 17:00:23 CET 2006


metalab-bounces at lists.metalab.at schrieb am 22.03.2006 15:55:31:
> Hmm,
>  1 Seite A4, 2448x3441px, graustufen png, ~ 45 Kb
>  1 Buch ~ 300 Seiten: 13 MB
>  500 Bücher : 6,5 Gb

Es kommt darauf an, wozu ich den Scan benutzen möchte. Wenn ich nachher nur
OCR machen möchte und ein niedrig aufgelöste bzw. stark komprimierte Verson
zum Korrekturlesen brauche ist Storage kein Problem. Wenn ich die Bücher
aber evt. einmal im Orignal nachdrucken möchte benötige ich einen
verlustfrei komprimierten 600dpi Scan der Seite und komme man auf ca. 5000
x 7000px = 33 MB Rohdaten pro Seite


> Für grosse billige garantiert immer redundante Storage kann ich CODA und
> InterMezzo auf Grund von nicht immer gegebenen Replicas nicht empfehlen.
> Coda ist eventuell interresant um bereits sicher gespeicherte Daten zu
> verteilen.
>
> ClusterFS ist, soweit ich das verstanden habe, das meherere Computer
> schreibend auf einen Storage Bereich (dh. nicht redundant) zugreifen.
>
> Software Raid Mirroring (vergesse immer ob das jetzt 0 oder 1 ist) wäre
> die erste Option für nicht "Mission Critical" daten,
>
> High-availibility Storage könnte man mit DRBD und zwei bzw. drei
> Rechnern mit Gigabit Link dazwischen aufbauen.
>
> Beides ersetzt natürlich nicht ein Backup, weil die Daten auch
> gleichzeitig überschrieben werden können.
>
>
> Eventuell eine Kombination aus
>  .) billigen Software Raid Mirroring (zumindest einplatten Crashes safe)
>  .) drbd plus heardbeat mit zwei Rechnern und gigabit link
> (high-availability)
>  .) und rdiff-backup der Daten auf einen dritten Rechner
> würde soetwas möglich machen.
>
> Netto zu Brutto Verhältniss wäre ungefähr (schwankt je nach
> Datenänderungvorhaltung) eins zu fünf :-(

Was derzeit fehlt ist eine hohe Verfügbarkeit / niedrige Performance
Lösung.

Für eine High End Lösung ala NetApp komme ich dzt. auf Kosten von ca.
18.000 Euro/TB bei einem normalen PC + 4xSATA Platten a 500 GB liegen die
Kosten bei ca. 900 Euro/TB. Die Plattenpreise sind mittlerweile so billig,
das einem eine 'normale' Backuplösung wie Tapedrives teuerer kämen als die
Platten selbst (weil ich aber einer gewissen Größe einen Bandroboter für
das Tapehandling brauche).

Jedes System mit einem anderen zu spiegeln wäre eine Möglichkeit. Es wäre
nur schwierig Spare Nodes zu konfigurieren die bei Ausfall eines Systems
automatisch einspringen können.

Was einmal einen Versuch wert wäre ist sich das Thema iSCSI einmal näher
anzusehen. Man könnte eine Reihe von Rechner rein als iSCSI Targets
konfigurieren deren einzige Aufgabe darin besteht per TCP/IP Diskspace zur
Verfügung stellen. Aus diese iSCSI Target Disk könnte man entweder ein
Software RAID konfigurieren, oder ein Clusterfilesystem wie RedHat GFS
aufsetzen.

Es wäre spannend zu testen was für eine Performance ein solches System
liefert (er würde viel Performace durch den TCP/IP Overhead drauf gehen,
dafür wäre aber die Last über viele Systeme verteilt). Vor allem aber
liesen sich alle RAID Features wie Parity + Spare Disks (welche in dem Fall
aus Spare Nodes bestehen würden) ausnutzen.

Für ein solches System würde man kein lokales Backup mehr brauchen, würde
es aber sinnvollerweise regelmässig mittels rsync auf einen zweiten
Standort spiegeln. Man müsste es austesten bzw. genau durchrechnen, aber
ein lokales 10 TB System um 15 - 20.000 Euro könnte sich ausgehen (je nach
verwendetem Equipment).

cu andreas







More information about the Metalab mailing list