partition_overwrite_default.sql 1.8 KB

123456789101112131415161718192021222324252627282930313233343536373839404142
  1. -- 用途:验证 Spark 2.4 不设 spark.sql.sources.partitionOverwriteMode 时
  2. -- 动态分区 INSERT OVERWRITE 的实际默认行为。
  3. -- 跑法见同目录 README.md。
  4. -- Hive 动态分区前置(不设动态分区 INSERT 跑不起来;这两条与本测试目标
  5. -- spark.sql.sources.partitionOverwriteMode 无关,是底层执行必需条件)
  6. set hive.exec.dynamic.partition=true;
  7. set hive.exec.dynamic.partition.mode=nonstrict;
  8. CREATE DATABASE IF NOT EXISTS test;
  9. DROP TABLE IF EXISTS test.idempotence_pom_default;
  10. CREATE EXTERNAL TABLE test.idempotence_pom_default (
  11. id INT,
  12. val STRING
  13. )
  14. PARTITIONED BY (dt STRING)
  15. STORED AS ORC
  16. LOCATION '/user/hive/warehouse/test.db/idempotence_pom_default';
  17. -- 灌初始 5 个 dt
  18. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt='20260501') VALUES (1, 'init-501');
  19. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt='20260502') VALUES (2, 'init-502');
  20. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt='20260503') VALUES (3, 'init-503');
  21. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt='20260504') VALUES (4, 'init-504');
  22. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt='20260505') VALUES (5, 'init-505');
  23. -- 关注点 A:初始分区集合(期望 5 个)
  24. SHOW PARTITIONS test.idempotence_pom_default;
  25. -- 不设 spark.sql.sources.partitionOverwriteMode,跑动态分区 INSERT OVERWRITE 只产 2 个 dt
  26. INSERT OVERWRITE TABLE test.idempotence_pom_default PARTITION (dt)
  27. SELECT 99 AS id, 'rewritten-503' AS val, '20260503' AS dt
  28. UNION ALL
  29. SELECT 100 AS id, 'rewritten-504' AS val, '20260504' AS dt;
  30. -- 关注点 B:跑完后分区集合
  31. SHOW PARTITIONS test.idempotence_pom_default;
  32. -- 关注点 C:实际数据落在哪
  33. SELECT * FROM test.idempotence_pom_default ORDER BY dt, id;