Pārlūkot izejas kodu

docs(kb/25): Step 1/2 加探查产出 + 评审项扩展

- §Step 1:补 md 头部探查段(行数估值 / 锚点字段 / 软删字段命中)
- §Step 2:评审项加锚点维护质量 / 软删字段命名 / 隐性裁字段对账

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
tianyu.chu 6 dienas atpakaļ
vecāks
revīzija
5b61c420eb
1 mainītis faili ar 11 papildinājumiem un 1 dzēšanām
  1. 11 1
      kb/25-raw接入流程.md

+ 11 - 1
kb/25-raw接入流程.md

@@ -64,7 +64,11 @@ python3 bin/datax-sync-template-gen.py \
   -o
 ```
 
-输出 `workspace/{yyyymmdd}/{table_name}.ini` + `.md`,全字段无裁剪,md 脱敏类型列空白。
+输出 `workspace/{yyyymmdd}/{table_name}.ini` + `.md`:
+
+- **md 头部探查段**(每次跑都做):行数估值(`pg_class.reltuples`)、锚点字段 `create_time` / `update_time` 存在性 + 抽样非空率(`TABLESAMPLE SYSTEM(1) LIMIT 1000`)、软删字段命中(`del` 子串,含噪声待人工筛)
+- **md 字段表**:全字段无裁剪,脱敏类型列空白
+- **ini**:全字段,无 `[mask]` 段
 
 ### Step 2:业务方 + 数仓评审字段
 
@@ -74,6 +78,12 @@ python3 bin/datax-sync-template-gen.py \
 - **脱敏入仓**(mask_middle / md5 / month_trunc 等):保留字段但敏感值不出业务库
 - **保留**:默认入仓
 
+同时基于 md 探查段评审:
+
+- **锚点字段维护质量**:`update_time` 抽样非空率 < 95% → 业务方需补维护或换锚点(如改用 `create_time`、改全量同步)
+- **软删字段命名**:含噪声命中(如 `delivery_end_time` 中"del"误命中)人工筛除,确认主软删字段名;多张表命名不一致时(`del_flag` vs `del_flg`)推动后端统一
+- **隐性裁字段**:PG 业务库有 / 分析师库 inbox 草稿无的字段(在 mask.ini 注释里标出)找业务库后端对账是否入仓
+
 输出:会议纪要里逐字段决策。
 
 ### Step 3:写 mask 配置