|
|
@@ -274,19 +274,9 @@ python3 bin/datax-job-config-generator.py -c jobs/raw/trd/raw_trd_order_pay_inc_
|
|
|
|
|
|
#### 4.3.5 `datax-gc-generator.py` —— ini 配置元生成器
|
|
|
|
|
|
-**用途**:连接源数据库读取表结构元数据,自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**,用于批量初始化 ini 配置,生成后通常需要人工检查和调整。
|
|
|
-
|
|
|
-**支持的同步方向**:
|
|
|
+此部分需要完全重构,此记录仅为重构提供思路。
|
|
|
|
|
|
-| `--from` | `--to` | 说明 |
|
|
|
-|-----------|--------|------|
|
|
|
-| `mysql` | `hdfs` | MySQL → HDFS(最常用,MySQL 同步到 Hive raw 层) |
|
|
|
-| `mysql` | `hbase` | MySQL → HBase |
|
|
|
-| `hdfs` | `hbase` | HDFS(Hive) → HBase |
|
|
|
-| `hdfs` | `kafka` | HDFS(Hive) → Kafka |
|
|
|
-| `hdfs` | `mongo` | HDFS(Hive) → MongoDB |
|
|
|
-| `hdfs` | `elasticsearch` | HDFS(Hive) → Elasticsearch |
|
|
|
-| `hdfs` | `mysql` | HDFS(Hive) → MySQL |
|
|
|
+**用途**:连接源数据库读取表结构元数据,自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**,用于批量初始化 ini 配置,生成后通常需要人工检查和调整。
|
|
|
|
|
|
**通用参数**:
|
|
|
|
|
|
@@ -321,60 +311,6 @@ python3 bin/datax-gc-generator.py --from hdfs --to elasticsearch \
|
|
|
|
|
|
> **安全提示**:该脚本接受数据库账密作为命令行参数。生产环境中建议通过环境变量或临时文件传递敏感信息,避免密码出现在 shell history 和进程列表中。
|
|
|
|
|
|
-## 5. 数据分层架构
|
|
|
-
|
|
|
-数仓分层与 `jobs/` 目录一一对应:
|
|
|
-
|
|
|
-```
|
|
|
- ┌────────────┐
|
|
|
-┌───────────────────────────────────────────┐ │ │
|
|
|
-│ ADS 应用层:业务指标、服务端导出宽表 │ │ │
|
|
|
-├───────────────────────────────────────────┤ │ │
|
|
|
-│ TDM 标签层:长表明细 + 宽表 + 人群包 │◄──┤ DIM │
|
|
|
-├───────────────────────────────────────────┤ │ │
|
|
|
-│ DWS 汇总层:主题聚合、提供公共指标 │◄──┤ 公共维度 │
|
|
|
-├───────────────────────────────────────────┤ │ │
|
|
|
-│ DWD 明细层:清洗加工 + 维度退化 │◄──┤ │
|
|
|
-├───────────────────────────────────────────┤ │ │
|
|
|
-│ ODS 贴源层:类型转换、脏数据识别 │ │ │
|
|
|
-├───────────────────────────────────────────┤ └────────────┘
|
|
|
-│ RAW 采集层:全字段 STRING,原样落盘 │
|
|
|
-└───────────────────────────────────────────┘
|
|
|
-
|
|
|
-数据流向:
|
|
|
- PG / ES ──DataX(raw)──▶ RAW ──SparkSQL(ods)──▶ ODS ──SparkSQL(dwd)──▶ DWD
|
|
|
- DWD ──SparkSQL(dws)──▶ DWS ──SparkSQL(tdm)──▶ TDM ──SparkSQL(ads)──▶ ADS
|
|
|
- ADS ──DataX / BrokerLoad──▶ 服务层(Doris / ClickHouse / ES / MongoDB)
|
|
|
-```
|
|
|
-
|
|
|
-**jobs/ 目录内部组织:**
|
|
|
-
|
|
|
-每个分层目录内部按**业务域代码**(见 `21-命名规范.md` §3.2,`trd`/`usr`/`prd`/`shp`/`pub`/`dim`)建子目录,每个业务域下放置具体的 ini 或 SQL 文件。样板见 `00-项目架构.md` §9。
|
|
|
-
|
|
|
-```
|
|
|
-jobs/
|
|
|
-├── raw/ # DataX ini / CSV 导入 SQL:从源系统采集到 Hive raw 区
|
|
|
-│ ├── trd/ # 交易域:订单、支付、退款等源表采集
|
|
|
-│ ├── usr/ # 用户域:用户注册、登录、行为等源表采集
|
|
|
-│ ├── shp/ # 商家域
|
|
|
-│ ├── prd/ # 商品域
|
|
|
-│ └── pub/ # 公共域:平台、日历等
|
|
|
-├── ods/ # SQL:贴源层(类型转换、脏数据识别)
|
|
|
-│ ├── trd/
|
|
|
-│ └── ...
|
|
|
-├── dim/ # SQL:维度层(公共维度,贯穿 dwd/dws/tdm/ads)
|
|
|
-│ ├── pub/ # 公共维度:日历、地区、币种、汇率
|
|
|
-│ ├── usr/ # 用户维度
|
|
|
-│ ├── prd/ # 商品维度
|
|
|
-│ └── shp/ # 店铺维度
|
|
|
-├── dwd/ # SQL:明细层(清洗加工 + 维度退化)
|
|
|
-├── dws/ # SQL:汇总层(轻度聚合)
|
|
|
-├── tdm/ # SQL:主题域模型层(跨域整合、画像)
|
|
|
-└── ads/ # SQL + ini:应用层 + 导出到服务层
|
|
|
-```
|
|
|
-
|
|
|
-**原则**:同一业务(如订单)的数据在不同分层之间纵向流转,`trd/` 这一业务域在 raw/ods/dwd/dws/tdm/ads 各层都会出现。
|
|
|
-
|
|
|
## 6. 配置管理体系
|
|
|
|
|
|
### 6.1 配置分类
|