Data Warehouse (DWH) verständlich erklärt

Was ist ein Data Warehouse?

In den meisten Unternehmen liegen Daten verstreut: im CRM, im Shopsystem, in der Buchhaltung, in Google Analytics 4 und in diversen Marketing-Tools. Jedes dieser Systeme hat seine eigene Sicht auf die Welt, eigene Bezeichnungen und eigene Datenformate. Solange diese Daten getrennt bleiben, lassen sich übergreifende Fragen wie der wahre Wert eines Kunden über alle Kanäle hinweg kaum beantworten.

Ein Data Warehouse löst dieses Problem, indem es als zentrale Sammelstelle dient. Daten aus allen relevanten Quellen werden regelmäßig importiert, in ein einheitliches Modell überführt und dauerhaft gespeichert. Auf dieser konsolidierten Basis lassen sich dann Analysen durchführen, die einzelne Tools nie liefern könnten.

Der entscheidende Unterschied zu einer normalen Datenbank liegt im Zweck. Eine operative Datenbank bedient den laufenden Betrieb und muss viele kleine Schreibvorgänge schnell verarbeiten. Ein Data Warehouse ist für das Gegenteil optimiert: für das Lesen und Aggregieren riesiger Datenmengen über lange Zeiträume, wie es für Reporting und Analyse typisch ist.

Wie Daten ins Warehouse gelangen

Der Weg der Daten ins Warehouse folgt einem Prozess, der traditionell als ETL bezeichnet wird: Extract, Transform, Load. Zunächst werden Daten aus den Quellsystemen extrahiert, anschließend transformiert, also bereinigt und vereinheitlicht, und schließlich in das Warehouse geladen. In modernen Cloud-Architekturen hat sich oft die Variante ELT durchgesetzt, bei der die Rohdaten zuerst geladen und erst im Warehouse transformiert werden.

Für die Anbindung der Quellen kommen häufig spezialisierte Werkzeuge zum Einsatz. Dienste wie Fivetran oder Airbyte übernehmen die automatische Übertragung aus Hunderten von Systemen, während Werkzeuge wie dbt die Transformation der Daten innerhalb des Warehouse organisieren. So entsteht eine wiederholbare, dokumentierte Datenpipeline.

Wichtig ist eine saubere Modellierung. Daten aus verschiedenen Quellen müssen so strukturiert werden, dass Kennzahlen eindeutig definiert sind und gleiche Begriffe überall dasselbe bedeuten. Ohne dieses gemeinsame Datenmodell entstehen widersprüchliche Zahlen, die das Vertrauen in das gesamte Reporting untergraben.

Cloud-Data-Warehouses im Vergleich

Der Markt wird von einigen großen Cloud-Plattformen geprägt, die sich in Architektur, Preismodell und Ökosystem unterscheiden. Google BigQuery ist eng mit dem Google-Marketing-Stack verzahnt und besonders bei der Auswertung von Google-Analytics-4-Rohdaten beliebt. Snowflake gilt als plattformneutral und flexibel skalierbar. Amazon Redshift ist tief im AWS-Ökosystem verankert, und Microsoft Fabric bündelt mehrere Datendienste in einer Plattform.

Die folgende Übersicht ordnet die vier Lösungen anhand der wichtigsten Entscheidungskriterien ein. Für die DSGVO-Konformität ist insbesondere die Wahl einer EU-Region relevant.

Cloud-Data-Warehouses im Vergleich
Plattform	Stärke	Skalierung	EU-Region	Preis-Modell
Google BigQuery	GA4-Rohdaten, Marketing-Nähe	Serverless, automatisch	Ja (z. B. europe-west)	Pro Abfrage / pro Speicher
Snowflake	Plattformneutral, flexibel	Compute getrennt skalierbar	Ja (EU-Regionen)	Pro Compute-Zeit
Amazon Redshift	AWS-Integration	Cluster- und Serverless-Modus	Ja (EU-Regionen)	Pro Cluster / pro Nutzung
Microsoft Fabric	All-in-one, Power-BI-Nähe	Kapazitätsbasiert	Ja (EU-Regionen)	Kapazitäts-Abo

Data Warehouse und Datenschutz

Sobald personenbezogene Daten in einem Data Warehouse zusammenfließen, gelten strenge Anforderungen der DSGVO. Entscheidend ist die Wahl des Speicherorts: Wird eine EU-Region genutzt, bleiben die Daten innerhalb des europäischen Rechtsraums, was Datentransfers in Drittländer vermeidet. Alle genannten Plattformen bieten EU-Regionen an, die Konfiguration muss jedoch bewusst gesetzt werden.

Darüber hinaus spielt die Datenminimierung eine zentrale Rolle. Nicht alle Rohdaten müssen unverändert gespeichert werden. Pseudonymisierung, Aggregation und definierte Löschfristen reduzieren das Risiko und erfüllen den Grundsatz der Speicherbegrenzung. Ein durchdachtes Berechtigungskonzept stellt zudem sicher, dass nur befugte Personen auf sensible Daten zugreifen.

Bei Elisabit konzipieren wir Data-Warehouse-Setups so, dass sie technisch belastbar und gleichzeitig datenschutzkonform sind. Damit lassen sich Daten aus First-Party-Quellen sinnvoll zusammenführen, ohne dass First-Party-Data zum rechtlichen Risiko wird.

1Relevante Datenquellen identifizieren und priorisieren
2EU-Region für das Warehouse festlegen und Datentransfers prüfen
3Datenpipeline per ETL oder ELT aufbauen und automatisieren
4Einheitliches Datenmodell mit klaren Kennzahlen definieren
5Berechtigungen, Pseudonymisierung und Löschfristen umsetzen
6Daten in BI-Tools und Marketing-Dashboards verfügbar machen

Wann sich ein Data Warehouse lohnt

Ein Data Warehouse lohnt sich, sobald Sie regelmäßig Daten aus mehreren Systemen zusammenführen müssen, um Fragen zu beantworten, die ein einzelnes Tool nicht abdeckt. Typische Auslöser sind kanalübergreifende Attribution, eine einheitliche Kundensicht oder das Bedürfnis nach verlässlichem, automatisiertem Reporting.

Für kleinere Unternehmen mit überschaubaren Datenmengen kann ein vollwertiges DWH zunächst überdimensioniert sein. Dank serverloser Cloud-Modelle und nutzungsbasierter Abrechnung sind die Einstiegshürden jedoch gesunken: Sie zahlen weitgehend nur für die tatsächlich verarbeiteten Daten und Abfragen, was den Einstieg auch im Mittelstand wirtschaftlich macht.

Der eigentliche Wert entsteht erst durch die Anbindung an Auswertung und Visualisierung. Ein Data Warehouse ist kein Selbstzweck, sondern die Grundlage, auf der BI-Tools und Looker Studio belastbare Berichte aufbauen. Erst diese Kombination macht aus gesammelten Daten echte Entscheidungsgrundlagen.

Häufige Fragen

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein zentrales, für Analysen optimiertes Datenbanksystem, das Daten aus vielen Quellen zusammenführt, vereinheitlicht und langfristig speichert. Anders als operative Datenbanken ist es darauf ausgelegt, große Mengen historischer Daten effizient auszuwerten. Es bildet die Grundlage für Business Intelligence, Reporting und datengetriebene Entscheidungen.

Worin unterscheidet sich ein Data Warehouse von einer normalen Datenbank?

Eine operative Datenbank bedient den laufenden Betrieb und muss viele kleine Schreibvorgänge schnell verarbeiten. Ein Data Warehouse ist für das Gegenteil optimiert: für das Lesen und Aggregieren riesiger Datenmengen über lange Zeiträume. Es speichert zudem historische Daten dauerhaft, während operative Systeme meist nur den aktuellen Zustand abbilden.

Welches Data Warehouse ist das richtige?

Die Wahl hängt von Ihrem Ökosystem ab. Google BigQuery ist ideal, wenn Sie Google-Analytics-4-Rohdaten auswerten wollen. Snowflake überzeugt durch Plattformneutralität, Amazon Redshift durch AWS-Integration und Microsoft Fabric durch die Nähe zu Power BI. Für die DSGVO ist bei allen die Wahl einer EU-Region entscheidend.

Ist ein Data Warehouse DSGVO-konform?

Ein Data Warehouse lässt sich DSGVO-konform betreiben, wenn personenbezogene Daten in einer EU-Region gespeichert, Datentransfers in Drittländer vermieden und die Grundsätze der Datenminimierung beachtet werden. Pseudonymisierung, definierte Löschfristen und ein sauberes Berechtigungskonzept sind dabei zentrale Bausteine. Die Konfiguration muss bewusst entsprechend gesetzt werden.

Was bedeutet ETL beziehungsweise ELT?

ETL steht für Extract, Transform, Load: Daten werden extrahiert, bereinigt und dann ins Warehouse geladen. ELT kehrt die Reihenfolge um und lädt die Rohdaten zuerst, um sie erst im Warehouse zu transformieren. In modernen Cloud-Architekturen ist ELT verbreitet, weil die Rechenleistung des Warehouse die Transformation effizient übernimmt.

Lohnt sich ein Data Warehouse für kleine Unternehmen?

Dank serverloser Cloud-Modelle und nutzungsbasierter Abrechnung ist der Einstieg auch im Mittelstand wirtschaftlich, da Sie weitgehend nur für tatsächlich verarbeitete Daten zahlen. Ein Data Warehouse lohnt sich, sobald Sie regelmäßig Daten aus mehreren Systemen zusammenführen müssen. Bei sehr kleinen Datenmengen kann ein vollwertiges DWH jedoch zunächst überdimensioniert sein.

Data Warehouse

Was ist ein Data Warehouse?

Wie Daten ins Warehouse gelangen

Cloud-Data-Warehouses im Vergleich

Data Warehouse und Datenschutz

Wann sich ein Data Warehouse lohnt

Häufige Fragen

Verwandte Begriffe

KI für Ihr Unternehmen nutzen?

Projekt anfragen

Stefan

Datenschutz-Einstellungen