tianyu.chu a850606d5d docs(kb): 统一"开发者/code review"表述 2 săptămâni în urmă
..
00-项目架构.md a850606d5d docs(kb): 统一"开发者/code review"表述 2 săptămâni în urmă
01-运行环境.md b28d87ace1 doc: 1.添加开发者鉴权路线 2.添加业务库同步方案及数据资产同步优先级 3 添加hive数据类型映射参考 2 săptămâni în urmă
02-权限与账号.md f081fdfe19 docs(kb): 补 Impala 链路、HMS Ranger 待验证、datasource env 目录 2 săptămâni în urmă
10-业务流程.md b28d87ace1 doc: 1.添加开发者鉴权路线 2.添加业务库同步方案及数据资产同步优先级 3 添加hive数据类型映射参考 2 săptămâni în urmă
11-数据资产.md b28d87ace1 doc: 1.添加开发者鉴权路线 2.添加业务库同步方案及数据资产同步优先级 3 添加hive数据类型映射参考 2 săptămâni în urmă
12-同步方案.md 0b32cdb2ff docs(kb): 新增 12-同步方案.md 2 săptămâni în urmă
20-数仓分层与建模.md b28d87ace1 doc: 1.添加开发者鉴权路线 2.添加业务库同步方案及数据资产同步优先级 3 添加hive数据类型映射参考 2 săptămâni în urmă
21-命名规范.md a850606d5d docs(kb): 统一"开发者/code review"表述 2 săptămâni în urmă
22-指标体系.md 8d2ade5330 feat: 项目初始化 2 săptămâni în urmă
23-标签体系.md 8d2ade5330 feat: 项目初始化 2 săptămâni în urmă
30-开发规范.md 934685cf0d docs(kb): 新增 §4.4 Git 提交信息规范 2 săptămâni în urmă
90-重构路线.md a850606d5d docs(kb): 统一"开发者/code review"表述 2 săptămâni în urmă
92-重构进度.md f081fdfe19 docs(kb): 补 Impala 链路、HMS Ranger 待验证、datasource env 目录 2 săptămâni în urmă
README.md b28d87ace1 doc: 1.添加开发者鉴权路线 2.添加业务库同步方案及数据资产同步优先级 3 添加hive数据类型映射参考 2 săptămâni în urmă

README.md

poyee-data-warehouse 知识库

kb/poyee-data-warehouse 数据仓库项目的知识库。 是开发手册,也是 vibe coding 和 Review 的参考依据

项目现状速读(冷启动必读)

  • launch-pad/ 不做业务迁移:里面是上个项目(与当前业务无关)的历史业务代码,仅作样板 SQL / DataX ini 写法的参考,新项目业务 SQL 全部从零开发,完成后 launch-pad/ 整体删除
  • tendata/dw_base/:这是重构核心映射,需要修改模块名 + 所有 from tendata ... import、ADD FILE tendata/...tendata.zip 打包命令等引用(详见 90-重构路线.md §1.1)
  • 重构进度:刚起步,kb 文档梳理完成,代码层面尚未动工。进度追踪见 92-重构进度.md

文档分组

文件按编号前缀分组,序号越小越基础、越靠前阅读。

文档索引

0x 项目与环境

文档 内容
00-项目架构 模块关系图、Spark SQL / DataX 执行时序、DataX 脚本详细使用说明、配置管理
01-运行环境 CDH 技术栈版本、平台架构图、开发侧约束
02-权限与账号 鉴权链路、job账号 vs 个人账号

1x 业务上下文

文档 内容
10-业务流程 Hobby Stocks 用户侧 + 商家侧 + 售后全链路流程图
11-数据资产 业务库、埋点数据、爬虫数据、采购数据清单
12-同步方案 PG → Hive 存量/增量/历史归档/CDC 同步策略与阶段演进

2x 数仓建模

文档 内容
20-数仓分层与建模 分层定义、主题域、总线矩阵、维度建模五步法、同步策略
21-命名规范 五段式表名、字段规则、词根字典、建表自检 Checklist
22-指标体系 指标分类、逻辑结构、指标/维度/度量字典
23-标签体系 TDM 层用户/商品/商家画像设计

3x 开发流程

文档 内容
30-开发规范 数据开发流程、任务规范、代码 / SQL 规范(IDE 格式化 scheme 见 conf/sql_style.xml

9x 过渡资料

文档 内容
90-重构路线 基于老项目代码分析的重构路线(P0-P3)
92-重构进度 重构任务 checklist 与当前进度

阅读建议

新成员上手路径:

  1. 00-项目架构 — 了解模块全貌
  2. 01-运行环境 — 了解基础设施
  3. 20-数仓分层与建模 — 了解建模方法论
  4. 21-命名规范 — 熟悉命名规则(★ 最高频参考)
  5. 30-开发规范 — 熟悉开发流程

查样板:

  • DataX ini 样板 → conf/templates/datax/{raw,ads,manual}/*.template.ini
  • Spark SQL 样板 → conf/templates/sql/*.template.sql
  • 建表 DDL 样板 → conf/templates/ddl/*.template.sql
  • 数据源连接样板 → conf/templates/datasource/*.template.ini