Parcourir la source

fix(conf): 删 hive.exec.orc.default.block.size(与集群 dfs.blocksize 同值,无效果)

tianyu.chu il y a 2 semaines
Parent
commit
ce9422da14
3 fichiers modifiés avec 4 ajouts et 7 suppressions
  1. 0 3
      conf/spark-defaults.conf
  2. 3 3
      kb/90-重构路线.md
  3. 1 1
      kb/92-重构进度.md

+ 0 - 3
conf/spark-defaults.conf

@@ -3,9 +3,6 @@
 # 加载入口:dw_base/spark/spark_sql.py 构造 SparkSession 前加载
 # 覆盖规则:L1 本文件 + spark-tuning.conf < L2 SQL 内 SET(仅 spark.sql.*)< L3 构造函数显式传参 / extra_spark_config
 
-# Hive ORC
-hive.exec.orc.default.block.size                134217728
-
 # 调试
 spark.debug.maxToStringFields                   5000
 

+ 3 - 3
kb/90-重构路线.md

@@ -130,7 +130,7 @@ conf/
 ├── env.sh                    # Shell + Python 环境变量单源(Python 侧由 dw_base/utils/env_loader.py 通过 bash 子进程解析注入 os.environ)
 ├── workers.ini               # DataX Worker 列表与权重
 ├── alerter.ini               # 告警 Webhook 配置(入库;见 §2.1)
-├── spark-defaults.conf       # Spark 底层行为/开关类(12 条,初始化后少改;Spark 原生格式)
+├── spark-defaults.conf       # Spark 底层行为/开关类(11 条,初始化后少改;Spark 原生格式)
 └── spark-tuning.conf         # Spark 资源/并行度/队列类(10 条,业务早期常改;同 tuning 相同 key 覆盖 defaults)
 ```
 
@@ -140,7 +140,7 @@ conf/
 
 **两文件拆分**:
 
-- `conf/spark-defaults.conf`(12 条)—— 底层行为/开关类,初始化后少改(`spark.sql.adaptive/broadcastTimeout/codegen/arrow*/files/statistics.*` + `spark.dynamicAllocation.enabled` + `spark.files.ignoreCorruptFiles` + `spark.debug.maxToStringFields` + `spark.port.maxRetries` + `hive.exec.orc.default.block.size`)
+- `conf/spark-defaults.conf`(11 条)—— 底层行为/开关类,初始化后少改(`spark.sql.adaptive/broadcastTimeout/codegen/arrow*/files/statistics.*` + `spark.dynamicAllocation.enabled` + `spark.files.ignoreCorruptFiles` + `spark.debug.maxToStringFields` + `spark.port.maxRetries`)
 - `conf/spark-tuning.conf`(10 条)—— 资源/并行度/队列类,业务早期常改(`spark.{driver,executor}.{memory,cores}` + `spark.executor.instances` + `spark.executor.memoryOverhead` + `spark.driver.maxResultSize` + `spark.default.parallelism` + `spark.sql.shuffle.partitions` + `spark.yarn.queue`)
 
 两文件都用 Spark 原生 `key value` 格式(空白分隔、`#` 注释、无 section),与 `spark-submit --properties-file` 同语法。
@@ -661,7 +661,7 @@ else:
 | `conf/env.sh`(LOG_ROOT_DIR / RELEASE_USER / RELEASE_ROOT_DIR / PYTHON3_PATH / DATAX_HOME) | 待启动 | — | §2.1 / §7.2.1 |
 | `conf/workers.ini`(DataX Workers + 权重 map 外移) | 待启动 | — | §2.1 |
 | `conf/alerter.ini`(告警 Webhook,入库) | 待启动 | 旧告警代码删除(已 2026-04-20 完成) | §2.1 |
-| `conf/spark-defaults.conf`(底层 12 条)+ `conf/spark-tuning.conf`(调优 10 条)+ `spark_sql.py` 三级覆盖 | ✅ 2026-04-21 | — | §2.3 |
+| `conf/spark-defaults.conf`(底层 11 条)+ `conf/spark-tuning.conf`(调优 10 条)+ `spark_sql.py` 三级覆盖 | ✅ 2026-04-21 | — | §2.3 |
 | `conf/datax-speed.ini`(DataX 分时速率) | 待启动 | — | §2.9 |
 | `datasource/{db_type}/{env}/{instance}.ini` 多环境分层 | 待启动 | — | §2.5 |
 | DataX 脚本去前缀剥离 + 加 `-env` 参数 | 待启动 | datasource 多环境 | §2.5 |

+ 1 - 1
kb/92-重构进度.md

@@ -68,7 +68,7 @@
 - [ ] 建立 `conf/workers.ini`(DataX Worker 列表 + 权重 map,整体迁出 `bin/common/init.sh:18-31`)
 - [ ] 建立 `conf/alerter.ini`(企微 Webhook,**入库**;格式见 `90-重构路线.md` §2.1)
 - [x] `dw_base/__init__.py` 瘦身(2026-04-21,修剪式,不拆 `core/`;见 `90-重构路线.md` §三 已完成态)
-- [x] 建立 `conf/spark-defaults.conf`(底层行为/开关类 12 条,少改)+ `conf/spark-tuning.conf`(资源/并行度 10 条,业务常改)(2026-04-21,Spark 原生格式;两文件拆分,见 `90-重构路线.md` §2.3)
+- [x] 建立 `conf/spark-defaults.conf`(底层行为/开关类 11 条,少改)+ `conf/spark-tuning.conf`(资源/并行度 10 条,业务常改)(2026-04-21,Spark 原生格式;两文件拆分,见 `90-重构路线.md` §2.3)
 - [x] 改造 `dw_base/spark/spark_sql.py`:构造函数 10 个 tuning 默认值 → `None` sentinel;新增 `_load_spark_conf_file()`;`__init_spark_session` 按 L1(两 conf 叠加) < L2(SQL SET) < L3(构造参数非 None + `extra_spark_config`) 三级覆盖(2026-04-21)
 - [ ] 验证:同一条 SQL 在无 SET、有 SET、命令行 -sc 三种场景下 `spark.conf.get(...)` 返回值符合优先级预期
 - [ ] 验证:`SET spark.executor.memory=Xg` 不会影响已启动 executor(文档里说清楚这条限制)