ORC (Optimized Row Columnar) ist ein selbstbeschreibendes, typbewusstes spaltenorientiertes Dateiformat, das für Hadoop-Workloads konzipiert wurde. Es ist für die Verarbeitung und Speicherung großer Datenmengen optimiert und bietet signifikante Verbesserungen in Bezug auf Leistung und Speichereffizienz im Vergleich zu traditionellen zeilenbasierten Formaten wie CSV oder Textdateien. ORC-Dateien speichern Daten in einem Spaltenformat, was die effiziente Abfrage spezifischer Spalten ermöglicht, ohne die gesamte Zeile lesen zu müssen. Dies ist besonders vorteilhaft für analytische Abfragen, die nur einen Teil der Daten benötigen. Das Format unterstützt außerdem verschiedene Kompressionstechniken (z.B. Zlib, Snappy, LZO), um den Speicherplatzbedarf und den I/O-Overhead zu reduzieren. Darüber hinaus enthalten ORC-Dateien Metadaten wie Statistiken über die Daten innerhalb jeder Spalte, was es Abfrageoptimierern ermöglicht, irrelevante Datenblöcke zu überspringen und die Abfrageleistung weiter zu verbessern. ORC wird in Big-Data-Ökosystemen wie Apache Hive, Apache Spark und Presto weithin zur Speicherung und Verarbeitung großer Datensätze verwendet. Die spaltenweise Speicherung ermöglicht eine bessere Datenkomprimierung und schnellere Leseoperationen für analytische Workloads.