2 hafta önce · d13ad2b07b
--- a/README.md
+++ b/README.md
@@ -4,16 +4,11 @@
 
				 
			
 
				 > 本 README 兼作**开发手册**，也是 **vibe coding 和 Review 的参考依据**。
			
 
				 
			
 
				-## 项目现状速读（冷启动必读）
			
 
				-
			
 
				-- **`launch-pad/` 不做业务迁移**：里面是上个项目（与当前业务无关）的历史业务代码，仅作**样板 SQL / DataX ini 写法的参考**，新项目业务 SQL 全部从零开发，完成后 `launch-pad/` 整体删除
			
 
				-- **重构进度**：进度追踪见 `kb/92-重构进度.md`
			
 
				-
			
 
				 ## 技术栈
			
 
				 
			
 
				 - **计算引擎**：PySpark 2.4 on YARN (CDH 6.3.2)
			
 
				 - **数据集成**：DataX_v202309
			
 
				-- **元数据管理**：Hive MetaStore
			
 
				+- **元数据管理**：Hive MetaStore（MySQL 后端）
			
 
				 - **存储**：HDFS (ORC)、RDS PostgreSQL --> Polar PostgreSQL、Elasticsearch
			
 
				 - **调度**：DolphinScheduler
			
 
				 - **告警**：企业微信机器人
			
--- a/kb/00-项目架构.md
+++ b/kb/00-项目架构.md
@@ -274,19 +274,9 @@ python3 bin/datax-job-config-generator.py -c jobs/raw/trd/raw_trd_order_pay_inc_
 
				 
			
 
				 #### 4.3.5 `datax-gc-generator.py` —— ini 配置元生成器
			
 
				 
			
 
				-**用途**：连接源数据库读取表结构元数据，自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**，用于批量初始化 ini 配置，生成后通常需要人工检查和调整。
			
 
				-
			
 
				-**支持的同步方向**：
			
 
				+此部分需要完全重构，此记录仅为重构提供思路。
			
 
				 
			
 
				-| `--from` | `--to` | 说明 |
			
 
				-|-----------|--------|------|
			
 
				-| `mysql` | `hdfs` | MySQL → HDFS（最常用，MySQL 同步到 Hive raw 层） |
			
 
				-| `mysql` | `hbase` | MySQL → HBase |
			
 
				-| `hdfs` | `hbase` | HDFS(Hive) → HBase |
			
 
				-| `hdfs` | `kafka` | HDFS(Hive) → Kafka |
			
 
				-| `hdfs` | `mongo` | HDFS(Hive) → MongoDB |
			
 
				-| `hdfs` | `elasticsearch` | HDFS(Hive) → Elasticsearch |
			
 
				-| `hdfs` | `mysql` | HDFS(Hive) → MySQL |
			
 
				+**用途**：连接源数据库读取表结构元数据，自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**，用于批量初始化 ini 配置，生成后通常需要人工检查和调整。
			
 
				 
			
 
				 **通用参数**：
			
 
				 
			
@@ -321,60 +311,6 @@ python3 bin/datax-gc-generator.py --from hdfs --to elasticsearch \
 
				 
			
 
				 > **安全提示**：该脚本接受数据库账密作为命令行参数。生产环境中建议通过环境变量或临时文件传递敏感信息，避免密码出现在 shell history 和进程列表中。
			
 
				 
			
 
				-## 5. 数据分层架构
			
 
				-
			
 
				-数仓分层与 `jobs/` 目录一一对应：
			
 
				-
			
 
				-```
			
 
				-                                                ┌────────────┐
			
 
				-┌───────────────────────────────────────────┐   │            │
			
 
				-│  ADS  应用层：业务指标、服务端导出宽表      │   │            │
			
 
				-├───────────────────────────────────────────┤   │            │
			
 
				-│  TDM  标签层：长表明细 + 宽表 + 人群包      │◄──┤    DIM     │
			
 
				-├───────────────────────────────────────────┤   │            │
			
 
				-│  DWS  汇总层：主题聚合、提供公共指标        │◄──┤  公共维度   │
			
 
				-├───────────────────────────────────────────┤   │            │
			
 
				-│  DWD  明细层：清洗加工 + 维度退化           │◄──┤            │
			
 
				-├───────────────────────────────────────────┤   │            │
			
 
				-│  ODS  贴源层：类型转换、脏数据识别          │   │            │
			
 
				-├───────────────────────────────────────────┤   └────────────┘
			
 
				-│  RAW  采集层：全字段 STRING，原样落盘       │
			
 
				-└───────────────────────────────────────────┘
			
 
				-
			
 
				-数据流向：
			
 
				-  PG / ES ──DataX(raw)──▶ RAW ──SparkSQL(ods)──▶ ODS ──SparkSQL(dwd)──▶ DWD
			
 
				-  DWD ──SparkSQL(dws)──▶ DWS ──SparkSQL(tdm)──▶ TDM ──SparkSQL(ads)──▶ ADS
			
 
				-  ADS ──DataX / BrokerLoad──▶ 服务层（Doris / ClickHouse / ES / MongoDB）
			
 
				-```
			
 
				-
			
 
				-**jobs/ 目录内部组织：**
			
 
				-
			
 
				-每个分层目录内部按**业务域代码**（见 `21-命名规范.md` §3.2，`trd`/`usr`/`prd`/`shp`/`pub`/`dim`）建子目录，每个业务域下放置具体的 ini 或 SQL 文件。样板见 `00-项目架构.md` §9。
			
 
				-
			
 
				-```
			
 
				-jobs/
			
 
				-├── raw/                          # DataX ini / CSV 导入 SQL：从源系统采集到 Hive raw 区
			
 
				-│   ├── trd/                      #   交易域：订单、支付、退款等源表采集
			
 
				-│   ├── usr/                      #   用户域：用户注册、登录、行为等源表采集
			
 
				-│   ├── shp/                      #   商家域
			
 
				-│   ├── prd/                      #   商品域
			
 
				-│   └── pub/                      #   公共域：平台、日历等
			
 
				-├── ods/                          # SQL：贴源层（类型转换、脏数据识别）
			
 
				-│   ├── trd/
			
 
				-│   └── ...
			
 
				-├── dim/                          # SQL：维度层（公共维度，贯穿 dwd/dws/tdm/ads）
			
 
				-│   ├── pub/                      #   公共维度：日历、地区、币种、汇率
			
 
				-│   ├── usr/                      #   用户维度
			
 
				-│   ├── prd/                      #   商品维度
			
 
				-│   └── shp/                      #   店铺维度
			
 
				-├── dwd/                          # SQL：明细层（清洗加工 + 维度退化）
			
 
				-├── dws/                          # SQL：汇总层（轻度聚合）
			
 
				-├── tdm/                          # SQL：主题域模型层（跨域整合、画像）
			
 
				-└── ads/                          # SQL + ini：应用层 + 导出到服务层
			
 
				-```
			
 
				-
			
 
				-**原则**：同一业务（如订单）的数据在不同分层之间纵向流转，`trd/` 这一业务域在 raw/ods/dwd/dws/tdm/ads 各层都会出现。
			
 
				-
			
 
				 ## 6. 配置管理体系
			
 
				 
			
 
				 ### 6.1 配置分类