|
@@ -187,11 +187,13 @@ RDS PG / ES ──DataX──▶ RAW ──SparkSQL──▶ ODS ──▶ DWD
|
|
|
| 数据来源 | 接入方式 | 快照类型 | 备注 |
|
|
| 数据来源 | 接入方式 | 快照类型 | 备注 |
|
|
|
|---------|---------|---------|------|
|
|
|---------|---------|---------|------|
|
|
|
| 业务库 (PG/MySQL) | DataX + CDC | `inc`(增量) | 如存在物理删除,后续推行软删除 |
|
|
| 业务库 (PG/MySQL) | DataX + CDC | `inc`(增量) | 如存在物理删除,后续推行软删除 |
|
|
|
-| 埋点 (Sensors → Kafka) | Kafka → HDFS/Hive | `apd`(追加) | 不可变事件流 |
|
|
|
|
|
|
|
+| 埋点(神策 SDK) | 固定服务器 gz 文件 → HDFS | `apd`(追加) | 不可变事件流;T+1 批量(见 kb/13、kb/14) |
|
|
|
| 爬虫数据 | 爬虫落库 → DataX | `ful` 或 `inc` | 按源站特性决定 |
|
|
| 爬虫数据 | 爬虫落库 → DataX | `ful` 或 `inc` | 按源站特性决定 |
|
|
|
| 维度数据 | 手工上传 / 配置化 | `ful`(全量) | 如国家映射、汇率表 |
|
|
| 维度数据 | 手工上传 / 配置化 | `ful`(全量) | 如国家映射、汇率表 |
|
|
|
| 一次性历史 / vendor 单批交付 | 本地 CSV → `bin/csv-to-hdfs-starter.py` | `his`(一次性历史) | 永不调度,导入后入档;周期段固定 `_o` |
|
|
| 一次性历史 / vendor 单批交付 | 本地 CSV → `bin/csv-to-hdfs-starter.py` | `his`(一次性历史) | 永不调度,导入后入档;周期段固定 `_o` |
|
|
|
|
|
|
|
|
|
|
+> 埋点实时 lane(`Sensors → Kafka → Flink → 实时存储`)后置,不在离线接入范围(实时栈"用得到才上")。
|
|
|
|
|
+
|
|
|
**快照类型决策:**
|
|
**快照类型决策:**
|
|
|
- 数据创建后会被修改 → `inc`(增量快照)
|
|
- 数据创建后会被修改 → `inc`(增量快照)
|
|
|
- 数据不可变 → `apd`(追加)
|
|
- 数据不可变 → `apd`(追加)
|