Przeglądaj źródła

docs(kb): 90 §2.6 后延 ADR 加 DataX 字段脱敏(高优先级)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
tianyu.chu 1 tydzień temu
rodzic
commit
60166d6f5e
1 zmienionych plików z 7 dodań i 1 usunięć
  1. 7 1
      kb/90-重构路线.md

+ 7 - 1
kb/90-重构路线.md

@@ -194,7 +194,13 @@ L3   SparkSQL(...) 显式传参  +  extra_spark_config  +  命令行 -sc
 4. 老脚本 `datax-{single,multiple,multiple-hive}-job-starter.{sh,py}` + `datax-job-config-generator.py` 在冒烟 2(新入口端到端通过)后整体删,**不保留兼容转发封装**
 5. `partition.py` 预建分区的 dt 必须用 `stop_date - 1 day`,和 HDFS writer(见 `hdfs_writer.py:23-26`)对齐;不沿用老脚本 `START_DATE` 作为 dt 的假设——老脚本在单日范围(`start+1 == stop`)下两者相等看不出问题,多日范围(如补 N 天)会出现 HDFS writer 写 `stop-1` 分区、`ALTER ADD PARTITION` 建 `start` 分区的错位,数据落的分区没被预建
 
-**本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`:
+**本轮不做、后延 ADR**:下列能力属新增需求、非老入口平迁,暂不实现;若将来出现明确场景,单独开 ADR 落 `kb/93`。按优先级分:
+
+**高优先级**(正式 raw 库上线前需要):
+
+- **DataX 字段级变换(raw 层脱敏)**:支持 ini 里声明列变换规则(如 `cert_birthday` 脱敏到月、身份证号哈希、手机号掩码等),满足公司"敏感字段不出业务库"合规要求。当前项目只支持字段筛选(`column` 不列就不查),不支持字段值转换。候选方案:(a) ini 里用 `querySql` 写 SQL 表达式(技术上已支持但耦合业务逻辑进 ini)、(b) 扩展 reader plugin 支持声明式 `transform =` 配置(项目原生、不依赖 DataX 框架)、(c) 引入 DataX 原生 transformer 机制(`job.content[].transformer` 节点)
+
+**低优先级**(有明确批量回刷场景再做):
 
 - 日期范围自动按日展开 + N 个 json 分发多 worker(`-start-date 20260401 -stop-date 20260410` → 自动切 10 份 json,每份独立选 worker)