浏览代码

docs(kb): 90 §2.6 补多日范围分区错位约束

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
tianyu.chu 1 周之前
父节点
当前提交
294b5f90cc
共有 1 个文件被更改,包括 1 次插入0 次删除
  1. 1 0
      kb/90-重构路线.md

+ 1 - 0
kb/90-重构路线.md

@@ -192,6 +192,7 @@ L3   SparkSQL(...) 显式传参  +  extra_spark_config  +  命令行 -sc
 2. 模块放 `dw_base/datax/` 包内,不横跨 `io/` / `utils/` —— **放宽聚簇 B2 前置**(四模块边界定稿前先落地)。等 B2 定稿后,`path_utils.log_path` 等纯函数、`worker.ssh_run` 中跨包部分再挪到 `dw_base/utils/` / `dw_base/io/`,只改 import 路径
 3. `-inis <dir>` 目录扫描只递归 `.ini` 文件
 4. 老脚本 `datax-{single,multiple,multiple-hive}-job-starter.{sh,py}` + `datax-job-config-generator.py` 在冒烟 2(新入口端到端通过)后整体删,**不保留兼容转发封装**
+5. `partition.py` 预建分区的 dt 必须用 `stop_date - 1 day`,和 HDFS writer(见 `hdfs_writer.py:23-26`)对齐;不沿用老脚本 `START_DATE` 作为 dt 的假设——老脚本在单日范围(`start+1 == stop`)下两者相等看不出问题,多日范围(如补 N 天)会出现 HDFS writer 写 `stop-1` 分区、`ALTER ADD PARTITION` 建 `start` 分区的错位,数据落的分区没被预建
 
 **本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`: