poyee-data-warehouse 知识库
kb/ 是 poyee-data-warehouse 数据仓库项目的权威知识库。
既是开发手册(给人看),也是 AI 代码生成和 Review 的参考依据(给 AI 看)。
项目现状速读(冷启动必读)
- 项目根目录:
kb/ 的父目录(当前物理路径 tendata-warehouse-release/,重构完成后将整体更名为 poyee-data-warehouse/,部署目录同名)
- 老项目 / 新项目是同一个目录:采用原地渐进式重构,而不是新建空目录。目前除
kb/ 外,根目录下所有内容(tendata/、launch-pad/、bin/、publish.sh 等)都是老项目代码,会在重构过程中逐步改造或删除
launch-pad/ 不做业务迁移:里面是上个项目(与当前业务无关)的历史业务代码,仅作样板 SQL / DataX ini 写法的参考,新项目业务 SQL 全部从零开发,完成后 launch-pad/ 整体删除
tendata/ → dw_base/:这是重构核心映射,需要修改模块名 + 所有 from tendata ... import、ADD FILE tendata/...、tendata.zip 打包命令等引用(详见 90-重构路线.md §1.1)
- 重构进度:刚起步,kb 文档梳理完成,代码层面尚未动工。进度追踪见
92-重构进度.md
文档分组
文件按编号前缀分组,序号越小越基础、越靠前阅读。
文档索引
0x 项目与环境
| 文档 |
内容 |
| 00-项目架构 |
模块关系图、Spark SQL / DataX 执行时序、DataX 脚本详细使用说明、配置管理 |
| 01-运行环境 |
CDH 技术栈版本、平台架构图、开发侧约束 |
| 02-权限与账号 |
鉴权链路、dolphinscheduler vs 个人账号、DataX datasource 账号 |
1x 业务上下文
| 文档 |
内容 |
| 10-业务流程 |
Hobby Stocks 用户侧 + 商家侧 + 售后全链路流程图 |
| 11-数据资产 |
业务库、埋点数据、爬虫数据、采购数据清单 |
2x 数仓建模
3x 开发流程
| 文档 |
内容 |
| 30-开发规范 |
数据开发流程、任务规范、代码 / SQL 规范 |
| sql_style.xml |
JetBrains 系 IDE 的 SQL 代码格式化 scheme(导入方式见 30-开发规范.md §4.2.1) |
9x 过渡资料
阅读建议
新成员上手路径:
- 00-项目架构 — 了解模块全貌
- 01-运行环境 — 了解基础设施
- 20-数仓分层与建模 — 了解建模方法论
- 21-命名规范 — 熟悉命名规则(★ 最高频参考)
- 30-开发规范 — 熟悉开发流程
AI 辅助开发路径:
- 建表 / 写 SQL →
21-命名规范.md + 20-数仓分层与建模.md
- 设计指标 →
22-指标体系.md
- 设计标签 →
23-标签体系.md
- 重构旧代码 →
90-重构路线.md
- 排查权限问题 →
02-权限与账号.md
原始导出
kb/Bigdata-space-export (5)/ 是公司公共知识库「大数据空间」的导出副本。本目录下的整合文档已从中提取了与 poyee-data-warehouse 数仓建设相关的核心信息。如需查看原始资料(含截图),可直接访问该子目录。