|
@@ -64,7 +64,11 @@ python3 bin/datax-sync-template-gen.py \
|
|
|
-o
|
|
-o
|
|
|
```
|
|
```
|
|
|
|
|
|
|
|
-输出 `workspace/{yyyymmdd}/{table_name}.ini` + `.md`,全字段无裁剪,md 脱敏类型列空白。
|
|
|
|
|
|
|
+输出 `workspace/{yyyymmdd}/{table_name}.ini` + `.md`:
|
|
|
|
|
+
|
|
|
|
|
+- **md 头部探查段**(每次跑都做):行数估值(`pg_class.reltuples`)、锚点字段 `create_time` / `update_time` 存在性 + 抽样非空率(`TABLESAMPLE SYSTEM(1) LIMIT 1000`)、软删字段命中(`del` 子串,含噪声待人工筛)
|
|
|
|
|
+- **md 字段表**:全字段无裁剪,脱敏类型列空白
|
|
|
|
|
+- **ini**:全字段,无 `[mask]` 段
|
|
|
|
|
|
|
|
### Step 2:业务方 + 数仓评审字段
|
|
### Step 2:业务方 + 数仓评审字段
|
|
|
|
|
|
|
@@ -74,6 +78,12 @@ python3 bin/datax-sync-template-gen.py \
|
|
|
- **脱敏入仓**(mask_middle / md5 / month_trunc 等):保留字段但敏感值不出业务库
|
|
- **脱敏入仓**(mask_middle / md5 / month_trunc 等):保留字段但敏感值不出业务库
|
|
|
- **保留**:默认入仓
|
|
- **保留**:默认入仓
|
|
|
|
|
|
|
|
|
|
+同时基于 md 探查段评审:
|
|
|
|
|
+
|
|
|
|
|
+- **锚点字段维护质量**:`update_time` 抽样非空率 < 95% → 业务方需补维护或换锚点(如改用 `create_time`、改全量同步)
|
|
|
|
|
+- **软删字段命名**:含噪声命中(如 `delivery_end_time` 中"del"误命中)人工筛除,确认主软删字段名;多张表命名不一致时(`del_flag` vs `del_flg`)推动后端统一
|
|
|
|
|
+- **隐性裁字段**:PG 业务库有 / 分析师库 inbox 草稿无的字段(在 mask.ini 注释里标出)找业务库后端对账是否入仓
|
|
|
|
|
+
|
|
|
输出:会议纪要里逐字段决策。
|
|
输出:会议纪要里逐字段决策。
|
|
|
|
|
|
|
|
### Step 3:写 mask 配置
|
|
### Step 3:写 mask 配置
|