Quellcode durchsuchen

docs(kb): §6 埋点接入改为离线 gz 路径,实时 lane 注明后置

tianyu.chu vor 4 Tagen
Ursprung
Commit
0782019c6d
1 geänderte Dateien mit 3 neuen und 1 gelöschten Zeilen
  1. 3 1
      kb/20-数仓分层与建模.md

+ 3 - 1
kb/20-数仓分层与建模.md

@@ -187,11 +187,13 @@ RDS PG / ES ──DataX──▶ RAW ──SparkSQL──▶ ODS ──▶ DWD 
 | 数据来源 | 接入方式 | 快照类型 | 备注 |
 |---------|---------|---------|------|
 | 业务库 (PG/MySQL) | DataX + CDC | `inc`(增量) | 如存在物理删除,后续推行软删除 |
-| 埋点 (Sensors → Kafka) | Kafka → HDFS/Hive | `apd`(追加) | 不可变事件流 |
+| 埋点(神策 SDK) | 固定服务器 gz 文件 → HDFS | `apd`(追加) | 不可变事件流;T+1 批量(见 kb/13、kb/14) |
 | 爬虫数据 | 爬虫落库 → DataX | `ful` 或 `inc` | 按源站特性决定 |
 | 维度数据 | 手工上传 / 配置化 | `ful`(全量) | 如国家映射、汇率表 |
 | 一次性历史 / vendor 单批交付 | 本地 CSV → `bin/csv-to-hdfs-starter.py` | `his`(一次性历史) | 永不调度,导入后入档;周期段固定 `_o` |
 
+> 埋点实时 lane(`Sensors → Kafka → Flink → 实时存储`)后置,不在离线接入范围(实时栈"用得到才上")。
+
 **快照类型决策:**
 - 数据创建后会被修改 → `inc`(增量快照)
 - 数据不可变 → `apd`(追加)