ORC (Optimized Row Columnar) es un formato de archivo columnar autodescriptivo y consciente del tipo, diseñado para cargas de trabajo de Hadoop. Está optimizado para el procesamiento y almacenamiento de datos a gran escala, ofreciendo mejoras significativas en rendimiento y eficiencia de almacenamiento en comparación con formatos tradicionales basados en filas como CSV o archivos de texto. Los archivos ORC almacenan datos en un formato columnar, lo que permite la recuperación eficiente de columnas específicas sin necesidad de leer la fila completa. Esto es particularmente beneficioso para consultas analíticas que solo requieren un subconjunto de los datos. El formato también soporta varias técnicas de compresión (ej. Zlib, Snappy, LZO) para reducir el espacio de almacenamiento y la sobrecarga de E/S (Entrada/Salida). Además, los archivos ORC incluyen metadatos como estadísticas sobre los datos dentro de cada columna, lo que permite a los optimizadores de consultas omitir bloques de datos irrelevantes y mejorar aún más el rendimiento de las consultas. ORC es ampliamente utilizado en ecosistemas de big data como Apache Hive, Apache Spark y Presto para almacenar y procesar grandes conjuntos de datos.