ORC (Optimized Row Columnar,优化行式列式存储) 是一种自描述、类型感知的列式文件格式,专为 Hadoop 工作负载设计。它针对大规模数据处理和存储进行了优化,与传统的基于行的格式(如 CSV 或文本文件)相比,在性能和存储效率方面提供了显著的改进。ORC 文件以列式格式存储数据,这使得无需读取整行即可高效地检索特定列。这对于仅需要数据子集的分析查询尤其有利。该格式还支持各种压缩技术(例如 Zlib、Snappy、LZO),以减少存储空间和 I/O 开销。此外,ORC 文件包含有关每列内数据的统计信息等元数据,使查询优化器能够跳过不相关的数据块,从而进一步提高查询性能。ORC 广泛应用于 Apache Hive、Apache Spark 和 Presto 等大数据生态系统中,用于存储和处理大型数据集。