Kaynağa Gözat

docs: README 精简,kb/00 删 §5 数据分层(见 kb/20),§4.3.5 标记待重构

tianyu.chu 2 hafta önce
ebeveyn
işleme
d13ad2b07b
2 değiştirilmiş dosya ile 3 ekleme ve 72 silme
  1. 1 6
      README.md
  2. 2 66
      kb/00-项目架构.md

+ 1 - 6
README.md

@@ -4,16 +4,11 @@
 
 > 本 README 兼作**开发手册**,也是 **vibe coding 和 Review 的参考依据**。
 
-## 项目现状速读(冷启动必读)
-
-- **`launch-pad/` 不做业务迁移**:里面是上个项目(与当前业务无关)的历史业务代码,仅作**样板 SQL / DataX ini 写法的参考**,新项目业务 SQL 全部从零开发,完成后 `launch-pad/` 整体删除
-- **重构进度**:进度追踪见 `kb/92-重构进度.md`
-
 ## 技术栈
 
 - **计算引擎**:PySpark 2.4 on YARN (CDH 6.3.2)
 - **数据集成**:DataX_v202309
-- **元数据管理**:Hive MetaStore
+- **元数据管理**:Hive MetaStore(MySQL 后端)
 - **存储**:HDFS (ORC)、RDS PostgreSQL --> Polar PostgreSQL、Elasticsearch
 - **调度**:DolphinScheduler
 - **告警**:企业微信机器人

+ 2 - 66
kb/00-项目架构.md

@@ -274,19 +274,9 @@ python3 bin/datax-job-config-generator.py -c jobs/raw/trd/raw_trd_order_pay_inc_
 
 #### 4.3.5 `datax-gc-generator.py` —— ini 配置元生成器
 
-**用途**:连接源数据库读取表结构元数据,自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**,用于批量初始化 ini 配置,生成后通常需要人工检查和调整。
-
-**支持的同步方向**:
+此部分需要完全重构,此记录仅为重构提供思路。
 
-| `--from` | `--to` | 说明 |
-|-----------|--------|------|
-| `mysql` | `hdfs` | MySQL → HDFS(最常用,MySQL 同步到 Hive raw 层) |
-| `mysql` | `hbase` | MySQL → HBase |
-| `hdfs` | `hbase` | HDFS(Hive) → HBase |
-| `hdfs` | `kafka` | HDFS(Hive) → Kafka |
-| `hdfs` | `mongo` | HDFS(Hive) → MongoDB |
-| `hdfs` | `elasticsearch` | HDFS(Hive) → Elasticsearch |
-| `hdfs` | `mysql` | HDFS(Hive) → MySQL |
+**用途**:连接源数据库读取表结构元数据,自动生成 DataX ini 配置文件。是开发阶段的**辅助工具**,用于批量初始化 ini 配置,生成后通常需要人工检查和调整。
 
 **通用参数**:
 
@@ -321,60 +311,6 @@ python3 bin/datax-gc-generator.py --from hdfs --to elasticsearch \
 
 > **安全提示**:该脚本接受数据库账密作为命令行参数。生产环境中建议通过环境变量或临时文件传递敏感信息,避免密码出现在 shell history 和进程列表中。
 
-## 5. 数据分层架构
-
-数仓分层与 `jobs/` 目录一一对应:
-
-```
-                                                ┌────────────┐
-┌───────────────────────────────────────────┐   │            │
-│  ADS  应用层:业务指标、服务端导出宽表      │   │            │
-├───────────────────────────────────────────┤   │            │
-│  TDM  标签层:长表明细 + 宽表 + 人群包      │◄──┤    DIM     │
-├───────────────────────────────────────────┤   │            │
-│  DWS  汇总层:主题聚合、提供公共指标        │◄──┤  公共维度   │
-├───────────────────────────────────────────┤   │            │
-│  DWD  明细层:清洗加工 + 维度退化           │◄──┤            │
-├───────────────────────────────────────────┤   │            │
-│  ODS  贴源层:类型转换、脏数据识别          │   │            │
-├───────────────────────────────────────────┤   └────────────┘
-│  RAW  采集层:全字段 STRING,原样落盘       │
-└───────────────────────────────────────────┘
-
-数据流向:
-  PG / ES ──DataX(raw)──▶ RAW ──SparkSQL(ods)──▶ ODS ──SparkSQL(dwd)──▶ DWD
-  DWD ──SparkSQL(dws)──▶ DWS ──SparkSQL(tdm)──▶ TDM ──SparkSQL(ads)──▶ ADS
-  ADS ──DataX / BrokerLoad──▶ 服务层(Doris / ClickHouse / ES / MongoDB)
-```
-
-**jobs/ 目录内部组织:**
-
-每个分层目录内部按**业务域代码**(见 `21-命名规范.md` §3.2,`trd`/`usr`/`prd`/`shp`/`pub`/`dim`)建子目录,每个业务域下放置具体的 ini 或 SQL 文件。样板见 `00-项目架构.md` §9。
-
-```
-jobs/
-├── raw/                          # DataX ini / CSV 导入 SQL:从源系统采集到 Hive raw 区
-│   ├── trd/                      #   交易域:订单、支付、退款等源表采集
-│   ├── usr/                      #   用户域:用户注册、登录、行为等源表采集
-│   ├── shp/                      #   商家域
-│   ├── prd/                      #   商品域
-│   └── pub/                      #   公共域:平台、日历等
-├── ods/                          # SQL:贴源层(类型转换、脏数据识别)
-│   ├── trd/
-│   └── ...
-├── dim/                          # SQL:维度层(公共维度,贯穿 dwd/dws/tdm/ads)
-│   ├── pub/                      #   公共维度:日历、地区、币种、汇率
-│   ├── usr/                      #   用户维度
-│   ├── prd/                      #   商品维度
-│   └── shp/                      #   店铺维度
-├── dwd/                          # SQL:明细层(清洗加工 + 维度退化)
-├── dws/                          # SQL:汇总层(轻度聚合)
-├── tdm/                          # SQL:主题域模型层(跨域整合、画像)
-└── ads/                          # SQL + ini:应用层 + 导出到服务层
-```
-
-**原则**:同一业务(如订单)的数据在不同分层之间纵向流转,`trd/` 这一业务域在 raw/ods/dwd/dws/tdm/ads 各层都会出现。
-
 ## 6. 配置管理体系
 
 ### 6.1 配置分类