|
|
@@ -194,7 +194,13 @@ L3 SparkSQL(...) 显式传参 + extra_spark_config + 命令行 -sc
|
|
|
4. 老脚本 `datax-{single,multiple,multiple-hive}-job-starter.{sh,py}` + `datax-job-config-generator.py` 在冒烟 2(新入口端到端通过)后整体删,**不保留兼容转发封装**
|
|
|
5. `partition.py` 预建分区的 dt 必须用 `stop_date - 1 day`,和 HDFS writer(见 `hdfs_writer.py:23-26`)对齐;不沿用老脚本 `START_DATE` 作为 dt 的假设——老脚本在单日范围(`start+1 == stop`)下两者相等看不出问题,多日范围(如补 N 天)会出现 HDFS writer 写 `stop-1` 分区、`ALTER ADD PARTITION` 建 `start` 分区的错位,数据落的分区没被预建
|
|
|
|
|
|
-**本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`:
|
|
|
+**本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`。按优先级分:
|
|
|
+
|
|
|
+**高优先级**(正式 raw 库上线前需要):
|
|
|
+
|
|
|
+- **DataX 字段级变换(raw 层脱敏)**:支持 ini 里声明列变换规则(如 `cert_birthday` 脱敏到月、身份证号哈希、手机号掩码等),满足公司"敏感字段不出业务库"合规要求。当前项目只支持字段筛选(`column` 不列就不查),不支持字段值转换。候选方案:(a) ini 里用 `querySql` 写 SQL 表达式(技术上已支持但耦合业务逻辑进 ini)、(b) 扩展 reader plugin 支持声明式 `transform =` 配置(项目原生、不依赖 DataX 框架)、(c) 引入 DataX 原生 transformer 机制(`job.content[].transformer` 节点)
|
|
|
+
|
|
|
+**低优先级**(有明确批量回刷场景再做):
|
|
|
|
|
|
- 日期范围自动按日展开 + N 个 json 分发多 worker(`-start-date 20260401 -stop-date 20260410` → 自动切 10 份 json,每份独立选 worker)
|
|
|
|