|
|
@@ -2,6 +2,13 @@
|
|
|
|
|
|
基于 PySpark + DataX 的数据仓库项目,负责多源数据采集、清洗、分层加工和分发。
|
|
|
|
|
|
+> 本 README 兼作**开发手册**,也是 **vibe coding 和 Review 的参考依据**。
|
|
|
+
|
|
|
+## 项目现状速读(冷启动必读)
|
|
|
+
|
|
|
+- **`launch-pad/` 不做业务迁移**:里面是上个项目(与当前业务无关)的历史业务代码,仅作**样板 SQL / DataX ini 写法的参考**,新项目业务 SQL 全部从零开发,完成后 `launch-pad/` 整体删除
|
|
|
+- **重构进度**:进度追踪见 `kb/92-重构进度.md`
|
|
|
+
|
|
|
## 技术栈
|
|
|
|
|
|
- **计算引擎**:PySpark 2.4 on YARN (CDH 6.3.2)
|
|
|
@@ -54,6 +61,61 @@ PG/ES ──DataX(raw)──> RAW ──> ODS ──> DWD ──> DWS ──> TD
|
|
|
- Python 3.6.8,依赖见 `requirements.txt`
|
|
|
- 部署:`publish.sh` 通过 git pull + rsync 分发到集群各节点
|
|
|
|
|
|
-## 文档
|
|
|
+## 文档索引
|
|
|
+
|
|
|
+文件按编号前缀分组,序号越小越基础、越靠前阅读。
|
|
|
+
|
|
|
+### 0x 项目与环境
|
|
|
+
|
|
|
+| 文档 | 内容 |
|
|
|
+|----|--------------------------------------------------|
|
|
|
+| [00-项目架构](kb/00-项目架构.md) | 模块关系图、Spark SQL / DataX 执行时序、DataX 脚本详细使用说明、配置管理 |
|
|
|
+| [01-运行环境](kb/01-运行环境.md) | CDH 技术栈版本、平台架构图、开发侧约束 |
|
|
|
+| [02-权限与账号](kb/02-权限与账号.md) | 鉴权链路、job账号 vs 个人账号
|
|
|
+
|
|
|
+### 1x 业务上下文
|
|
|
+
|
|
|
+| 文档 | 内容 |
|
|
|
+|----|----|
|
|
|
+| [10-业务流程](kb/10-业务流程.md) | Hobby Stocks 用户侧 + 商家侧 + 售后全链路流程图 |
|
|
|
+| [11-数据资产](kb/11-数据资产.md) | 业务库、埋点数据、爬虫数据、采购数据清单 |
|
|
|
+| [12-同步方案](kb/12-同步方案.md) | PG → Hive 存量/增量/历史归档/CDC 同步策略与阶段演进 |
|
|
|
+
|
|
|
+### 2x 数仓建模
|
|
|
+
|
|
|
+| 文档 | 内容 |
|
|
|
+|----|----|
|
|
|
+| [20-数仓分层与建模](kb/20-数仓分层与建模.md) | 分层定义、主题域、总线矩阵、维度建模五步法、同步策略 |
|
|
|
+| [21-命名规范](kb/21-命名规范.md) ★ | 五段式表名、字段规则、词根字典、建表自检 Checklist |
|
|
|
+| [22-指标体系](kb/22-指标体系.md) | 指标分类、逻辑结构、指标/维度/度量字典 |
|
|
|
+| [23-标签体系](kb/23-标签体系.md) | TDM 层用户/商品/商家画像设计 |
|
|
|
+
|
|
|
+### 3x 开发流程
|
|
|
+
|
|
|
+| 文档 | 内容 |
|
|
|
+|----|----|
|
|
|
+| [30-开发规范](kb/30-开发规范.md) | TPAD 任务规范、数仓数据开发流程、代码 / SQL 规范、Git 协作规范 |
|
|
|
+| [31-UDF手册](kb/31-UDF手册.md) | UDF 自查表 |
|
|
|
+
|
|
|
+### 9x 过渡资料
|
|
|
+
|
|
|
+| 文档 | 内容 |
|
|
|
+|----|----|
|
|
|
+| [90-重构路线](kb/90-重构路线.md) | 基于老项目代码分析的重构路线(P0-P3) |
|
|
|
+| [92-重构进度](kb/92-重构进度.md) | 重构任务 checklist 与当前进度 |
|
|
|
+
|
|
|
+## 阅读建议
|
|
|
+
|
|
|
+**新成员上手路径:**
|
|
|
+1. [00-项目架构](kb/00-项目架构.md) — 了解模块全貌
|
|
|
+2. [01-运行环境](kb/01-运行环境.md) — 了解基础设施
|
|
|
+3. [20-数仓分层与建模](kb/20-数仓分层与建模.md) — 了解建模方法论
|
|
|
+4. [21-命名规范](kb/21-命名规范.md) — 熟悉命名规则(★ 最高频参考)
|
|
|
+5. [30-开发规范](kb/30-开发规范.md) — 熟悉开发流程
|
|
|
+
|
|
|
+**样板(待补充):**
|
|
|
|
|
|
-详细文档见 `kb/` 目录
|
|
|
+- DataX ini 样板 → `conf/templates/datax/{raw,ads,manual}/*.template.ini`
|
|
|
+- Spark SQL 样板 → `conf/templates/sql/*.template.sql`
|
|
|
+- 建表 DDL 样板 → `conf/templates/ddl/*.template.sql`
|
|
|
+- 数据源连接样板 → `conf/templates/datasource/*.template.ini`
|