hace 2 semanas · f1b67ef325
--- a/kb/00-项目架构.md
+++ b/kb/00-项目架构.md
@@ -8,50 +8,75 @@
 
				 
			
 
				 ```
			
 
				 poyee-data-warehouse/              # 项目根目录（仓库名 = 部署名）
			
 
				-├── bin/                           # 启动脚本层：Shell + Python 入口脚本
			
 
				+├── bin/                           # 启动脚本层：Shell + Python 入口
			
 
				 │   ├── common/                    #   公共 Shell 函数与初始化
			
 
				-│   ├── spark-sql-starter.py       #   Spark SQL 执行入口
			
 
				-│   ├── datax-single-job-starter.sh#   DataX 单任务启动
			
 
				-│   ├── datax-multiple-job-starter.sh # DataX 批量任务启动
			
 
				-│   ├── datax-job-config-generator.py # ini→json 配置生成
			
 
				-│   └── ...
			
 
				+│   ├── spark-sql-starter.py
			
 
				+│   ├── datax-single-job-starter.sh
			
 
				+│   ├── datax-single-job-starter.py
			
 
				+│   ├── datax-multiple-job-starter.sh
			
 
				+│   ├── datax-multiple-job-starter.py
			
 
				+│   ├── datax-multiple-hive-job-starter.sh
			
 
				+│   ├── datax-multiple-hive-job-starter.py
			
 
				+│   ├── datax-job-config-generator.py
			
 
				+│   └── datax-gc-generator.py
			
 
				 ├── jobs/                          # 业务代码层，定时调度执行
			
 
				 │   ├── raw/                       #   原始数据采集（DataX ini 或 CSV 导入任务定义）
			
 
				-│   ├── ods/                       #   贴源层计算 SQL（类型转换、脏数据识别）
			
 
				-│   ├── dim/                       #   维度层计算 SQL（公共维度，贯穿 dwd/dws/tdm/ads）
			
 
				+│   ├── ods/                       #   贴源层计算 SQL
			
 
				+│   ├── dim/                       #   维度层计算 SQL
			
 
				 │   ├── dwd/                       #   明细层计算 SQL
			
 
				 │   ├── dws/                       #   汇总层计算 SQL
			
 
				 │   ├── tdm/                       #   主题域模型层计算 SQL
			
 
				 │   ├── ads/                       #   应用层计算 SQL + 导出 ini
			
 
				-│   └── archive/                   #   已弃用的过期脚本归档
			
 
				+│   └── archive/                   #   已弃用脚本归档
			
 
				 ├── manual/                        # 一次性脚本（禁止接入定时调度）
			
 
				 │   ├── ddl/                       #   所有 DDL（初始 CREATE + 后续 ALTER）
			
 
				 │   ├── backfill/                  #   历史数据回刷
			
 
				 │   ├── fix/                       #   线上脏数据订正（必须带工单号）
			
 
				 │   ├── adhoc/                     #   临时取数 / 排查
			
 
				-│   ├── imports/{yyyymmdd}/        #   一次性入仓（硬盘、历史 dump、外部 CSV），按执行日期归档
			
 
				-│   └── exports/{yyyymmdd}/        #   一次性出仓任务，按执行日期归档
			
 
				+│   ├── imports/{yyyymmdd}/        #   一次性入仓，按执行日期归档
			
 
				+│   └── exports/{yyyymmdd}/        #   一次性出仓，按执行日期归档
			
 
				 ├── dw_base/                       # 通用库层
			
 
				 │   ├── __init__.py                #   全局初始化（环境检测、用户/权限判断、颜色常量）
			
 
				-│   ├── common/                    #   常量、容器（alerter / config / template 常量）
			
 
				+│   ├── common/                    #   常量、容器
			
 
				 │   ├── spark/                     #   SparkSQL 相关
			
 
				-│   ├── udf/                       #   UDF 库（common 通用 + business 业务专用）
			
 
				 │   ├── datax/                     #   DataX 相关
			
 
				-│   ├── utils/                     #   通用工具（参数解析、日期、文件、日志、SQL 解析、字符串等）
			
 
				-│   ├── io/                        #   （占位）I/O 边界：db / file / hdfs 跨进程读写
			
 
				+│   │   ├── datasources/
			
 
				+│   │   └── plugins/
			
 
				+│   │       ├── reader/
			
 
				+│   │       └── writer/
			
 
				+│   ├── udf/                       #   UDF 库
			
 
				+│   │   ├── common/                #     通用 UDF
			
 
				+│   │   └── business/              #     业务专用 UDF
			
 
				+│   ├── utils/                     #   通用工具（参数解析、日期、文件、日志、SQL 解析等）
			
 
				+│   ├── io/                        #   （占位）I/O 边界：跨进程读写
			
 
				+│   │   ├── db/
			
 
				+│   │   ├── file/
			
 
				+│   │   └── hdfs/
			
 
				 │   ├── ops/                       #   （占位）仓内数据运维（小文件合并、分区清理）
			
 
				-│   ├── dq/                        #   （占位）数据质量检查（schema drift、值域、关联、规模）
			
 
				+│   ├── dq/                        #   （占位）数据质量检查
			
 
				 │   ├── pm/                        #   （占位）项目管理工具集成（TAPD / Jira API）
			
 
				 │   └── wiki/                      #   （占位）外部文档同步（Docmost → kb/inbox）
			
 
				 ├── kb/                            # 知识库：项目文档
			
 
				 ├── conf/                          # 配置层（非敏感配置，入库）
			
 
				 │   ├── env.sh                     #   环境变量 / 路径（bash + Python 单源）
			
 
				-│   ├── spark-defaults.conf        #   Spark 行为 / 开关类默认（少改）
			
 
				-│   ├── spark-tuning.conf          #   Spark 资源 / 调优类默认（常改）
			
 
				-│   ├── templates/                 #   开发样板，按引擎分 datax/ + spark/（见 30-开发规范.md §7）
			
 
				-│   └── bak/                       #   老 conf/datax/config/ 归档（gitignore）
			
 
				+│   ├── spark-defaults.conf
			
 
				+│   ├── spark-tuning.conf
			
 
				+│   ├── templates/                 #   开发样板（见 30-开发规范.md §7）
			
 
				+│   │   ├── datax/
			
 
				+│   │   │   ├── datasource/
			
 
				+│   │   │   └── sync/
			
 
				+│   │   └── spark/
			
 
				+│   │       ├── ddl/
			
 
				+│   │       └── sql/
			
 
				+│   └── bak/                       #   老配置归档（gitignore）
			
 
				+│       ├── datax/
			
 
				+│       │   ├── config/
			
 
				+│       │   └── datasource/
			
 
				+│       └── flume/
			
 
				+│           └── config/
			
 
				 ├── tests/                         # 测试
			
 
				 │   ├── unit/                      #   纯函数单测
			
 
				+│   │   └── udf/
			
 
				 │   ├── integration/               #   Spark / DataX 集成测试
			
 
				 │   └── README.md
			
 
				 ├── publish.sh                     # 集群部署脚本
			
@@ -130,8 +155,3 @@ conf/spark-defaults.conf + conf/spark-tuning.conf   (L1，全局默认，大数
 
				 部署用户：bigdata
			
 
				 部署方式：git pull + rsync (publish.sh → re-all 分发)
			
 
				 ```
			
 
				-
			
 
				-**日志目录**：
			
 
				-
			
 
				-- **已实现**（2026-04-21，kb/92 A.1）：`LOG_ROOT_DIR` 外配到 `conf/env.sh`（默认 `${HOME}/log`）；老项目 whoami 分流（`/opt/data/log` vs `~/data/log`）已删除，统一由 `LOG_ROOT_DIR` 决定落点（release 用户 bigdata 落 `/home/bigdata/log/`，个人落各自家目录）
			
 
				-- **目标态**（待日志模块重写，见 `90-重构路线.md` §7.2 / §7.2.1，kb/92 D）：统一按 `${LOG_ROOT_DIR}/{module}/{dt}/{file}.log` 结构输出
			
--- a/kb/92-重构进度.md
+++ b/kb/92-重构进度.md
@@ -187,3 +187,4 @@
 
				 | 2026-04-22 | **kb/00 §9 样板 job 结构迁入 kb/30 §4**：kb/00 主题收敛到架构（模块/数据流/配置），§9 "DDL/jobs 组织 + migration 模式 + 命名速查" 属数仓开发方法论，整节（§9.1–§9.6）迁入 kb/30 新增的 §4 数仓开发文件组织；kb/30 原 §4/§5/§6/§7 顺序后移为 §5/§6/§7/§8，§6 manual/ 临时 SQL 规范里 "详见 `00-项目架构.md` §9.6" 改指本文 §4.6（就近内引）。外部引用更新：kb/90 §八 csv-to-hdfs 行"参见"列改指 kb/30 §4.3；kb/92 阶段 1 csv-to-hdfs checklist 里 "§9.3 模板" 改指 kb/30 §4.3。历史 changelog 里带 "§9.x" 的条目保留不改（历史 snapshot） | — |
			
 
				 | 2026-04-22 | **README 文档索引加入 SSOT 职责边界**：索引段起首加一行 SSOT 原则（每篇文档是其主题的唯一权威，跨文档用 `§` 锚点互引不复述）；5 张分组表 "内容" 列改为 "职责"，每行重写为加粗前缀（**架构** / **基础设施** / **鉴权链路** / **建模方法论** / **命名规则** / **开发方法论** 等）+ 边界简述。顺带修两处：02-权限与账号行原来缺尾 `|` 表格闭合；末尾开发样板链接 `§6` 改 `§7`（对齐上一条 kb/30 §4 插入后的重编号） | — |
			
 
				 | 2026-04-22 | **kb/00 结构收尾**：用户侧删除 §4.3 DataX 脚本说明 / §6.3 DataX ini 格式 / §6.4 env 注入 / §8 manual/ 执行规范四大块，保留 §1 目录树 + §3/§4 待补充骨架 + §6 配置分类 + Spark 参数优先级。AI 侧：(a) §1 目录树补 `conf/` 与 `tests/` 实际文件（env.sh / spark-defaults.conf / spark-tuning.conf / templates/ / bak/；unit/ / integration/）；(b) §7 DataX 入口 + §8 Spark 入口半成品标题格式修复（`7 。` → `## 7.`、`8 .` / `8.1` 补 heading level）；(c) 编号去跳号重排：1/3/4/6/7/8 + 重复的 7 → 1/2/3/4/5/6/7 连续，§7 部署架构规避冲突后落在新 §7；(d) §7 部署架构说明改写，分清已实现（whoami 分流删除 + LOG_ROOT_DIR 外配，2026-04-21 A.1）与目标态（`{module}/{dt}/{file}.log` 日志统一，待日志模块重写 kb/90 §7.2 / §7.2.1）。联动：kb/30 §6 删 "详见 kb/00 §8"（§8 已删）；kb/30 §4.3 raw 层下补 DataX ini `dataSource = {db_type}/{env}-{实例简称}` 运行时契约（代码由 `plugin.py:37` 父目录判 db_type）—— kb/00 删掉的接口约定移到 kb/30 归属；kb/90 §1.2 L97 陈旧引用 `kb/00 §5 的样板` 改指 kb/00 §1 + kb/30 §4.2；README 0x 表 00-项目架构 行职责描述同步为"目录结构、模块关系、执行链、配置管理、DataX / Spark 入口、部署架构" | — |
			
 
				+| 2026-04-22 | **kb/00 §1 目录树补齐子目录并去冗余注释；章节号去跳号**：(a) §1 补子目录 `bin/common/`、`conf/templates/{datax/{datasource,sync},spark/{ddl,sql}}/`、`conf/bak/{datax/{config,datasource},flume/config}/`、`dw_base/datax/{datasources,plugins/{reader,writer}}/`、`dw_base/io/{db,file,hdfs}/`、`dw_base/udf/{common,business}/`、`tests/unit/udf/`；conf 下"行为/开关类少改 vs 资源/调优类常改"等冗余注释去掉；bin/ 脚本逐行列出；(b) 用户调整大标题顺序后号码与位置不匹配，重排为连续 §1/§2/§3 执行链详解/§4 配置管理体系/§5 DataX 入口/§6 Spark 入口/§7 部署架构 | — |