|
@@ -20,6 +20,24 @@
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
|
|
|
+### 0.2 raw 同步策略备忘:小表转全量 + cgoi 保留增量(2026-05-20 加,待评)
|
|
|
|
|
+
|
|
|
|
|
+**方向**:8 张 raw 中 cgoi(订单)外 7 张走全量(每天一份 ful_d 快照分区),cgoi 保留 inc_d 双源 union(数据量大,按年分 6 段回填验证过)。
|
|
|
|
|
+
|
|
|
|
|
+**观察支撑**(2026-05-20 raw 重刷实测):cgoi 外 7 张全量耗时都很短;cgi(拼团商品)也属可接受。
|
|
|
|
|
+
|
|
|
|
|
+**触发条件**:1 期 tdm 端到端跑稳一周后翻出来评;评估时一并看 raw 调度耗时分布 + ods/dim/dwd SQL 重写工作量 + 全量 vs 增量在补数/重跑场景下的运维差异。
|
|
|
|
|
+
|
|
|
|
|
+**潜在影响**(评估前点出来):
|
|
|
|
|
+
|
|
|
|
|
+- ods 模式:双源 union + dedupe 退化为单源最新快照([kb/93 ADR-03](93-架构决策.md) 退化为 cgoi 单表特例)
|
|
|
|
|
+- 设计语义清晰:cgoi = 大事实表(增量)/ 其他 7 张 = 维度类(全量),符合 Kimball 直觉
|
|
|
|
|
+- raw 层 his_o + inc_d 双表设计对小表不再必要(小表只需每天一份全量分区)
|
|
|
|
|
+
|
|
|
|
|
+**阻塞 / 反悔退路**:现在动 = ods/dim/dwd 7 张 SQL 重写 + 重新 backfill,1 期闭环要停半个月;全量模式在数据量增长后可能反悔,ADR-03 双源 union 设计保留作为退路。
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
### 4.4 老 DataX 脚本 Worker 分发与日志链路(2026-04-23 查证)
|
|
### 4.4 老 DataX 脚本 Worker 分发与日志链路(2026-04-23 查证)
|
|
|
|
|
|
|
|
> 本节描述的是**老脚本**(`datax-single/multiple/multiple-hive-job-starter.sh`)的分发和日志行为。
|
|
> 本节描述的是**老脚本**(`datax-single/multiple/multiple-hive-job-starter.sh`)的分发和日志行为。
|