kb/是poyee-data-warehouse数据仓库项目的知识库。 是开发手册,也是 vibe coding 和 Review 的参考依据。
launch-pad/ 不做业务迁移:里面是上个项目(与当前业务无关)的历史业务代码,仅作样板 SQL / DataX ini 写法的参考,新项目业务 SQL 全部从零开发,完成后 launch-pad/ 整体删除tendata/ → dw_base/:这是重构核心映射,需要修改模块名 + 所有 from tendata ... import、ADD FILE tendata/...、tendata.zip 打包命令等引用(详见 90-重构路线.md §1.1)92-重构进度.md文件按编号前缀分组,序号越小越基础、越靠前阅读。
| 文档 | 内容 |
|---|---|
| 00-项目架构 | 模块关系图、Spark SQL / DataX 执行时序、DataX 脚本详细使用说明、配置管理 |
| 01-运行环境 | CDH 技术栈版本、平台架构图、开发侧约束 |
| 02-权限与账号 | 鉴权链路、job账号 vs 个人账号 |
| 文档 | 内容 |
|---|---|
| 10-业务流程 | Hobby Stocks 用户侧 + 商家侧 + 售后全链路流程图 |
| 11-数据资产 | 业务库、埋点数据、爬虫数据、采购数据清单 |
| 12-同步方案 | PG → Hive 存量/增量/历史归档/CDC 同步策略与阶段演进 |
| 文档 | 内容 |
|---|---|
| 20-数仓分层与建模 | 分层定义、主题域、总线矩阵、维度建模五步法、同步策略 |
| 21-命名规范 ★ | 五段式表名、字段规则、词根字典、建表自检 Checklist |
| 22-指标体系 | 指标分类、逻辑结构、指标/维度/度量字典 |
| 23-标签体系 | TDM 层用户/商品/商家画像设计 |
| 文档 | 内容 |
|---|---|
| 30-开发规范 | 数据开发流程、任务规范、代码 / SQL 规范(IDE 格式化 scheme 见 conf/sql_style.xml) |
| 文档 | 内容 |
|---|---|
| 90-重构路线 | 基于老项目代码分析的重构路线(P0-P3) |
| 92-重构进度 | 重构任务 checklist 与当前进度 |
新成员上手路径:
查样板:
conf/templates/datax/{raw,ads,manual}/*.template.iniconf/templates/sql/*.template.sqlconf/templates/ddl/*.template.sqlconf/templates/datasource/*.template.ini