|
|
@@ -192,6 +192,7 @@ L3 SparkSQL(...) 显式传参 + extra_spark_config + 命令行 -sc
|
|
|
2. 模块放 `dw_base/datax/` 包内,不横跨 `io/` / `utils/` —— **放宽聚簇 B2 前置**(四模块边界定稿前先落地)。等 B2 定稿后,`path_utils.log_path` 等纯函数、`worker.ssh_run` 中跨包部分再挪到 `dw_base/utils/` / `dw_base/io/`,只改 import 路径
|
|
|
3. `-inis <dir>` 目录扫描只递归 `.ini` 文件
|
|
|
4. 老脚本 `datax-{single,multiple,multiple-hive}-job-starter.{sh,py}` + `datax-job-config-generator.py` 在冒烟 2(新入口端到端通过)后整体删,**不保留兼容转发封装**
|
|
|
+5. `partition.py` 预建分区的 dt 必须用 `stop_date - 1 day`,和 HDFS writer(见 `hdfs_writer.py:23-26`)对齐;不沿用老脚本 `START_DATE` 作为 dt 的假设——老脚本在单日范围(`start+1 == stop`)下两者相等看不出问题,多日范围(如补 N 天)会出现 HDFS writer 写 `stop-1` 分区、`ALTER ADD PARTITION` 建 `start` 分区的错位,数据落的分区没被预建
|
|
|
|
|
|
**本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`:
|
|
|
|