пре 2 недеља · 3e8131fefc
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -1,4 +1,4 @@
 
															-# CLAUDE.md
														
 
															+a# CLAUDE.md
														
 
															 本项目是数据仓库工程 `poyee-data-warehouse`，当前处于**从老项目 `tendata-warehouse-release` 原地渐进式重构**的阶段。
														
@@ -23,7 +23,7 @@
 
															 - **存储格式**：所有分层一律 `STORED AS ORC` + `orc.compress=NONE`（不压缩）
														
 
															 - **raw 层契约**：全字段 STRING，同步任务不做类型转换，类型化交给 ods 层（详见 `kb/20-数仓分层与建模.md` §8）。一次性历史导入用 `his` 快照类型 + `o` 周期，表名形如 `raw_xxx_his_o`，不分区，CTAS 一步建表（详见 `kb/00-项目架构.md` §9.3 / §9.3.1）
														
 
															 - **部署**：项目仓库名 = 部署目录名 = `poyee-data-warehouse`，部署路径 `/home/bigdata/release/poyee-data-warehouse/`，部署用户 `bigdata`
														
 
															-- **敏感数据源配置**：不入仓库，由运维维护在 `/home/bigdata/release/datasource/{db_type}/{instance}.ini`
														
 
															+- **敏感数据源配置**：不入仓库，由运维维护在 `/home/bigdata/release/datasource/{db_type}/{env}/{instance}.ini`（按环境 `dev`/`test`/`prod` 分子目录；执行时由命令行 `-env <name>` 或 `conf/env.sh` 默认值注入，ini 里 `dataSource = {db_type}/{instance}` 不含环境）
														
 
															 ## 协作约定
														
--- a/README.md
+++ b/README.md
@@ -5,9 +5,9 @@
 
															 ## 技术栈
														
 
															 - **计算引擎**：PySpark 2.4 on YARN (CDH 6.3.2)
														
 
															-- **数据集成**：DataX（阿里开源）
														
 
															+- **数据集成**：DataX_v202309
														
 
															 - **元数据管理**：Hive MetaStore
														
 
															-- **存储**：HDFS (ORC)、RDS PostgreSQL、Elasticsearch
														
 
															+- **存储**：HDFS (ORC)、RDS PostgreSQL --> Polar PostgreSQL、Elasticsearch
														
 
															 - **调度**：DolphinScheduler
														
 
															 - **告警**：企业微信机器人
														
--- a/conf/sql_style.xml
+++ b/conf/sql_style.xml
--- a/dw_base/common/template_constants.py
+++ b/dw_base/common/template_constants.py
@@ -13,7 +13,7 @@ SPARK_ODS_DWD_FU_TEMPLATE = 'conf/template/spark/ods-dwd-full-update-template.sq
 
															 SPARK_DWS_ES_TEMPLATE = 'conf/template/spark/dws_es_update_repair_template.sql'
														
 
															 SPARK_DWS_ES_TEMPLATE_SJT = 'conf/template/spark/dws_es_update_repair_template_sjt.sql'
														
 
															 SPARK_SOP_ODS_DWD_FU_TEMPLATE = 'conf/template/spark/sop-ods-dwd-full-update-template.sql'
														
 
															-SPARK_RAW_ODS_V_TEMPLATE = 'conf/template/spark/raw-ods-validat e-template.sql'
														
 
															+SPARK_RAW_ODS_V_TEMPLATE = 'conf/template/spark/raw-ods-validat。，3e-template.sql'
														
 
															 SPARK_RAW_SOP_V_TEMPLATE = 'conf/template/spark/raw-sop-template.sql'
														
 
															 SPARK_STOCK_V_TEMPLATE = 'conf/template/spark/stock-validate-template.sql'
														
 
															 TFC_TEMPLATE = 'conf/template/hive/tiny-file-combine-template.sql'
														
--- a/kb/00-项目架构.md
+++ b/kb/00-项目架构.md
@@ -288,15 +288,22 @@ python datax.py generated.json       （DataX 框架执行数据同步）
 
															 **HDFS 数据检查**（`check_data_exists()`）：当 JSON 配置路径包含 `hdfs-` 时，会自动检查 HDFS reader 路径是否存在且有数据，无数据则跳过执行。
														
 
															-**示例**：
														
 
															+**示例**（目标态，用 `-env` 切环境；命名见 `21-命名规范.md` §3.9）：
														
 
															 ```bash
														
 
															-# 使用 ini 配置（自动生成 JSON 后执行）
														
 
															-bin/datax-single-job-starter.sh -gc conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-orders.ini -start-date 20260415
														
 
															+# 采集任务（raw 层 ini）
														
 
															+bin/datax-single-job-starter.sh -gc jobs/raw/trd/raw_trd_order_pay_inc_d.ini -start-date 20260415 -env prod
														
 
															+
														
 
															+# 导出任务（ads 层 ini）
														
 
															+bin/datax-single-job-starter.sh -gc jobs/ads/trd/ads_trd_gmv_d_export.ini -start-date 20260415 -env prod
														
 
															-# 使用已生成的 JSON（跳过生成步骤）
														
 
															-bin/datax-single-job-starter.sh -c /abs/path/to/generated.json -start-date 20260415
														
 
															+# 使用已生成的 JSON（跳过生成，env 已嵌入 JSON）
														
 
															+bin/datax-single-job-starter.sh -c /abs/path/to/generated.json
														
 
															 ```
														
 
															+> **待重构项**（见 `90-重构路线.md` §2.1 DataX 条目）：
														
 
															+> - `-env` 参数目前**尚未实现**，现阶段切环境靠改 `datasource/` 下的实际文件或 `conf/env.sh`（待新建）
														
 
															+> - `bin/` 下几个 DataX 启动脚本 / 生成器里还残留 `conf/datax/config/` 前缀剥离逻辑（老项目遗留；该目录已迁至 `conf/bak/` 并忽略入库），新项目 ini 放在 `jobs/raw/` / `jobs/ads/` / `manual/`，这段逻辑要清理掉
														
 
															+
														
 
															 ---
														
 
															 #### 4.3.2 `datax-multiple-job-starter.sh` —— 通用批量启动
														
@@ -324,30 +331,32 @@ bin/datax-single-job-starter.sh -c /abs/path/to/generated.json -start-date 20260
 
															 **日志路径**：`${LOG_ROOT_DIR}/datax/${src-dst}/${project_layer_env}/${START_DATE}/${START_DATE}-${JOB_NAME}.log`
														
 
															-**示例**：
														
 
															+**示例**（目标态）：
														
 
															 ```bash
														
 
															-# 批量执行整个目录下的 ini 配置
														
 
															-bin/datax-multiple-job-starter.sh -gcd conf/datax/config/mysql-hdfs/prod -start-date 20260415 -parallel
														
 
															+# 批量执行整个业务域下的 raw 采集 ini
														
 
															+bin/datax-multiple-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -env prod -parallel
														
 
															 # 指定多个 ini 文件串行执行
														
 
															 bin/datax-multiple-job-starter.sh \
														
 
															-  -gc conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-orders.ini \
														
 
															-  -gc conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-users.ini \
														
 
															-  -start-date 20260415
														
 
															+  -gc jobs/raw/trd/raw_trd_order_pay_inc_d.ini \
														
 
															+  -gc jobs/raw/usr/raw_usr_user_info_inc_d.ini \
														
 
															+  -start-date 20260415 -env prod
														
 
															 ```
														
 
															 ---
														
 
															-#### 4.3.3 `datax-multiple-hive-job-starter.sh` —— MySQL→Hive 专用批量启动
														
 
															+#### 4.3.3 `datax-multiple-hive-job-starter.sh` —— 带 Hive 分区自动管理的批量启动
														
 
															-**用途**：在 `datax-multiple-job-starter.sh` 之上封装了 **Hive 分区自动管理**。MySQL→Hive 采集场景的推荐入口。
														
 
															+**用途**：在 `datax-multiple-job-starter.sh` 之上封装了 **Hive 分区自动管理**。任何写入 Hive 分区表的 DataX 同步作业（不限于 MySQL→Hive）都可以用它，脚本头注释里"MySQL-Hive 作业"只是历史命名。**日常采集作业的主力入口**。
														
 
															 **与 multiple-job-starter 的区别**：
														
 
															-1. 自动从 ini 配置中解析 Hive 表名和分区路径（`parse_ddl()` 函数）
														
 
															+1. 自动从 ini 配置中解析 Hive 表名和分区路径（`parse_ddl()` 函数，`grep "path =" <ini>`）
														
 
															 2. 在执行 DataX 前自动执行 `ALTER TABLE ... ADD IF NOT EXISTS PARTITION(dt=...)` 
														
 
															 3. 支持在脚本内硬编码配置列表（`partitioned_tables`、`generator_config_array` 等数组），适合固定调度场景
														
 
															 4. 支持 `--override` 参数临时覆盖脚本内硬编码配置
														
 
															+> **自动建分区只对 ini 输入生效**：`parse_ddl()` 读的是 ini 里的 `path = ...` 行。如果走 `-jc` / `-jcd` 传已生成的 JSON，脚本没有 ini 可解析，自动建分区**不触发**，此时要么改用 `-t db.table` 显式声明分区、要么把分区记录在脚本内 `partitioned_tables` 数组。
														
 
															+
														
 
															 **额外参数**：
														
 
															 | 参数 | 说明 |
														
@@ -364,17 +373,17 @@ bin/datax-multiple-job-starter.sh \
 
															 2. 检查路径是否包含 `/dt=${dt}`（分区标识）
														
 
															 3. 从 HDFS 路径中提取 `{db}.db/{table_name}` → 拼接 `ALTER TABLE {db}.{table} ADD IF NOT EXISTS PARTITION(dt={START_DATE})`
														
 
															-**示例**：
														
 
															+**示例**（目标态）：
														
 
															 ```bash
														
 
															-# 执行整个目录 + 自动建分区
														
 
															+# 执行某业务域下所有 raw 采集 ini + 自动建 Hive 分区
														
 
															 bin/datax-multiple-hive-job-starter.sh \
														
 
															-  -gcd conf/datax/config/mysql-hdfs/prod \
														
 
															-  -start-date 20260415 -parallel
														
 
															+  -gcd jobs/raw/trd \
														
 
															+  -start-date 20260415 -env prod -parallel
														
 
															-# 覆盖脚本内配置，只跑指定的失败任务
														
 
															+# 覆盖脚本内硬编码配置，只跑指定的失败任务
														
 
															 bin/datax-multiple-hive-job-starter.sh --override \
														
 
															-  -gc conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-orders.ini \
														
 
															-  -start-date 20260415
														
 
															+  -gc jobs/raw/trd/raw_trd_order_pay_inc_d.ini \
														
 
															+  -start-date 20260415 -env prod
														
 
															 ```
														
 
															 ---
														
@@ -394,22 +403,21 @@ bin/datax-multiple-hive-job-starter.sh --override \
 
															 | `-stop-date` | 结束日期，默认今天 |
														
 
															 | `-o <dir>` | 输出目录（默认 `conf/datax/generated/`） |
														
 
															-**生成路径规则**：输出文件保持 ini 的目录层级，例如：
														
 
															-```
														
 
															-输入：conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-orders.ini
														
 
															-输出：conf/datax/generated/mysql-hdfs/prod/mysql-hdfs-hobby-orders.json
														
 
															-```
														
 
															+**生成路径规则**（**当前脚本残留老逻辑，待清理**）：脚本里仍保留 `temp = os.path.dirname(gcf).replace(project_root_dir, '').replace('conf/datax/config/', '').split('/')` 这段——老项目的 ini 放在 `conf/datax/config/{src-dst}/{env}/` 下，前缀剥离后能派生出 `src_dst` / `project_layer_env` 拼接输出路径。新项目 ini 已经不走这条路径（`conf/datax/config/` 整体挪到 `conf/bak/` 并 gitignore），但脚本里的 replace 语句仍在执行一次无效剥离，输出会落到 `conf/datax/generated/jobs/raw/trd/xxx.json`——能跑但路径形态不符合新约定。
														
 
															-**示例**：
														
 
															+重构目标：去掉路径前缀剥离逻辑，输出统一扁平为 `conf/datax/generated/{env}/{目标表名}.json`。登记为硬编码待重构项，见 `90-重构路线.md` §2.1。
														
 
															+
														
 
															+**示例**（目标态）：
														
 
															 ```bash
														
 
															 # 生成单个 ini 对应的 JSON
														
 
															-python3 bin/datax-job-config-generator.py -c conf/datax/config/mysql-hdfs/prod/mysql-hdfs-hobby-orders.ini
														
 
															+python3 bin/datax-job-config-generator.py -c jobs/raw/trd/raw_trd_order_pay_inc_d.ini -env prod
														
 
															-# 批量生成整个目录（递归）
														
 
															-python3 bin/datax-job-config-generator.py -d conf/datax/config/mysql-hdfs/prod -r
														
 
															+# 批量生成某业务域下所有 ini（递归）
														
 
															+python3 bin/datax-job-config-generator.py -d jobs/raw/trd -r -env prod
														
 
															 # 指定日期和输出路径
														
 
															-python3 bin/datax-job-config-generator.py -c some.ini -start-date 20260415 -stop-date 20260416 -o /tmp/datax-out
														
 
															+python3 bin/datax-job-config-generator.py -c jobs/raw/trd/raw_trd_order_pay_inc_d.ini \
														
 
															+  -start-date 20260415 -stop-date 20260416 -env prod -o /tmp/datax-out
														
 
															 ```
														
 
															 ---
														
@@ -444,16 +452,16 @@ python3 bin/datax-job-config-generator.py -c some.ini -start-date 20260415 -stop
 
															 **示例**：
														
 
															 ```bash
														
 
															-# 为 MySQL 库中所有表生成 mysql→hdfs 的 ini 配置
														
 
															+# 为 MySQL 库中所有表生成 mysql→hdfs 的 ini 配置，输出到 raw/trd 业务域
														
 
															 python3 bin/datax-gc-generator.py --from mysql --to hdfs \
														
 
															   -h 10.0.0.1 -u reader -p xxx -D hobby_prod \
														
 
															-  --output conf/datax/config/mysql-hdfs/prod
														
 
															+  --output jobs/raw/trd
														
 
															 # 只为指定表生成，排除临时表
														
 
															 python3 bin/datax-gc-generator.py --from mysql --to hdfs \
														
 
															   -h 10.0.0.1 -u reader -p xxx -D hobby_prod \
														
 
															   -tr "^order" -er "^tmp_" \
														
 
															-  --output conf/datax/config/mysql-hdfs/prod
														
 
															+  --output jobs/raw/trd
														
 
															 # 为 Hive 表生成 hdfs→elasticsearch 的 ini 配置
														
 
															 python3 bin/datax-gc-generator.py --from hdfs --to elasticsearch \
														
@@ -535,7 +543,7 @@ jobs/
 
															 | 配置类型 | 存放位置 | 是否入仓库 | 维护角色 |
														
 
															 |----------|---------|-----------|------|
														
 
															-| 数据源连接（含账密） | `../datasource/{类型}/` | 否 | 运维   |
														
 
															+| 数据源连接（含账密） | `../datasource/{db_type}/{env}/{instance}.ini` | 否 | 运维   |
														
 
															 | DataX 同步任务定义 | `jobs/raw/` (采集) 和 `jobs/ads/` (导出) | 是 | 开发   |
														
 
															 | Spark 默认参数 | `conf/spark-defaults.yaml`（目标态） / `spark_sql.py` 构造函数（现状） | 是 | 开发   |
														
 
															 | Spark 单作业覆盖 | 对应 `jobs/*.sql` 文件内 `SET spark.x.y=z` | 是 | 开发   |
														
@@ -569,10 +577,10 @@ userPassword = xxx
 
															 defaultFS = hdfs://nameservice1               # HDFS
														
 
															 ```
														
 
															-**同步任务定义（jobs/raw/*/*.ini）：**
														
 
															+**同步任务定义（jobs/raw/{domain}/{目标表名}.ini）：**
														
 
															 ```ini
														
 
															 [reader]
														
 
															-dataSource = pg-hobby-prod                    # 引用 datasource/pg/hobby-prod.ini
														
 
															+dataSource = pg/hobby                         # 引用 datasource/pg/${env}/hobby.ini，${env} 运行时注入
														
 
															 dbName = xxx
														
 
															 schemaName = public
														
 
															 tableName = orders
														
@@ -581,7 +589,7 @@ columnType = col1:bigint,col2:date
 
															 where = update_time >= '${start_date}' AND update_time < '${stop_date}'
														
 
															 [writer]
														
 
															-dataSource = hdfs-prod
														
 
															+dataSource = hdfs/default                     # 引用 datasource/hdfs/${env}/default.ini
														
 
															 column = col1,col2,...
														
 
															 columnType = col1:bigint,col2:date
														
 
															 path = /user/hive/warehouse/raw.db/raw_trd_order_pay_inc_d/dt=${dt}
														
@@ -589,10 +597,79 @@ fileType = orc
 
															 writeMode = truncate
														
 
															 ```
														
 
															+**关键约定**：
														
 
															+- `dataSource` 字段只写 `{db_type}/{instance}`，**不含环境**。环境由启动脚本的 `-env` 参数注入
														
 
															+- 新项目推荐规范见 §6.4；老项目里 `dataSource = pg-hobby-prod` 这种把环境拼进字符串的写法是历史遗留，重构中统一改为上述新形式
														
 
															+
														
 
															 **增量/全量区分：**
														
 
															 - `dt=19700101` 或 `query={}` → 全量
														
 
															 - `query` 中含 `${start_date}`/`${stop_date}` → 增量
														
 
															+### 6.4 多环境机制与 env 注入
														
 
															+
														
 
															+**原则：业务代码一套，环境差异收敛在 `datasource/` 和 `conf/env.sh`，运行时注入。**
														
 
															+
														
 
															+**环境集合**：`dev` / `test` / `prod`（由运维在 `datasource/` 下分别维护一套实例配置）。
														
 
															+
														
 
															+**注入链路**：
														
 
															+
														
 
															+```
														
 
															+启动脚本（-env prod）
														
 
															+        │
														
 
															+        ▼
														
 
															+ini 里 dataSource = pg/hobby
														
 
															+        │
														
 
															+        │  脚本拼接
														
 
															+        ▼
														
 
															+实际路径 datasource/pg/prod/hobby.ini
														
 
															+        │
														
 
															+        ▼
														
 
															+DataX Reader/Writer 建立连接
														
 
															+```
														
 
															+
														
 
															+**env 判定优先级**（两级，不引入环境变量，避免污染 shell 历史和 CI 环境）：
														
 
															+
														
 
															+| 级别 | 来源 | 用途 |
														
 
															+|------|------|------|
														
 
															+| L1（最高） | 命令行 `-env <name>` | 调试 / 跨环境临时切换 |
														
 
															+| L2 | `conf/env.sh` 里的 `DW_ENV` 默认值 | **入仓库**的一份配置，由开发者维护。默认值通常锁死为 `dev`（服务本地调试方便）。DolphinScheduler / 生产脚本总是命令行显式挂 `-env prod` 覆盖。不做任何"按用户/目录"的自动派生 |
														
 
															+
														
 
															+**目录示例**：
														
 
															+
														
 
															+```
														
 
															+datasource/                           # 运维维护，不入仓库
														
 
															+├── pg/
														
 
															+│   ├── prod/
														
 
															+│   │   ├── hobby.ini                 # 生产 PG 实例
														
 
															+│   │   └── crm.ini
														
 
															+│   ├── test/
														
 
															+│   │   └── hobby.ini
														
 
															+│   └── dev/
														
 
															+│       └── hobby.ini
														
 
															+├── mysql/
														
 
															+│   ├── prod/
														
 
															+│   └── dev/
														
 
															+├── mongo/
														
 
															+│   └── ...
														
 
															+└── hdfs/
														
 
															+    └── ...
														
 
															+```
														
 
															+
														
 
															+**执行示例**：
														
 
															+
														
 
															+```bash
														
 
															+# 跑生产环境
														
 
															+bin/datax-multiple-hive-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -env prod -parallel
														
 
															+
														
 
															+# 本地调试（通常省略 -env，走 conf/env.sh 默认值 dev）
														
 
															+bin/datax-single-job-starter.sh -gc jobs/raw/trd/raw_trd_order_pay_inc_d.ini -start-date 20260415
														
 
															+
														
 
															+# 跑测试环境（测试 Hive 集群 + 测试后端库 + 测试服务库都在 datasource/*/test/ 下）
														
 
															+bin/datax-multiple-hive-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -env test -parallel
														
 
															+```
														
 
															+
														
 
															+**当前状态**：`-env` 参数、`conf/env.sh`、`datasource/` 的环境子目录**都尚未落地**，是目标态。改造清单见 `90-重构路线.md` §2.1。
														
 
															+
														
 
															 ## 7. 部署架构
														
 
															 ```
														
@@ -918,7 +995,7 @@ jobs/ads/trd/
 
															 | `manual/ddl/` | `.sql` | `{目标表名}.sql`（首次） 或 `{yyyymmdd}_{表名}_{change}.sql`（ALTER） | DDL 唯一来源；首次建表用 `CREATE TABLE IF NOT EXISTS`，后续 ALTER 带日期前缀，执行后归档 |
														
 
															 | `jobs/raw/{domain}/` | `.ini`（DataX）或 `.sql`（CSV 导入） | `{目标表名}.ini` 或 `{目标表名}.sql` | DataX 采集或 CSV 导入任务定义 |
														
 
															 | `jobs/{ods\|dwd\|dws\|tdm}/{domain}/` | `.sql` | `{目标表名}.sql` | 每日 `INSERT OVERWRITE` 计算 |
														
 
															-| `jobs/ads/{domain}/` | `.sql` + `.ini` | `{ads 表名}.sql` + `{ads 表名}_export.ini` | 产出 + 导出 |
														
 
															+| `jobs/ads/{domain}/` | `.sql` + `.ini` | `{ads 表名}.sql` + `{ads 表名}__{db_type}_{instance}.ini` | 产出 + 导出；同一张 ads 表扇出多下游时各一份 ini（见 `21-命名规范.md` §3.9） |
														
 
															 | `manual/backfill/` | `.sql` | `{yyyymmdd}_{表名}_history.sql` | 一次性历史回刷脚本 |
														
 
															 ### 9.6 表结构变更流程（migration 模式）
														
--- a/kb/21-命名规范.md
+++ b/kb/21-命名规范.md
@@ -247,6 +247,35 @@ ads 是面向具体应用场景的输出表（报表、接口、导出），表
 
															 | `tmp` | 临时表 | ETL 中间结果 |
														
 
															 | `test` | 测试表 | 开发测试用 |
														
 
															+### 3.9 DataX ini 文件命名
														
 
															+
														
 
															+按**数据流向**分三类，各自命名规则不同；ini 文件名全局唯一，等于生成的 JSON 文件名（去扩展名）和 JOB_NAME。
														
 
															+
														
 
															+| 场景 | 方向 | 命名模板 | 存放位置 | 示例 |
														
 
															+|------|------|---------|---------|------|
														
 
															+| 采集 | 外部源 → Hive | `{目标 Hive 表名}.ini` | `jobs/raw/{域}/` | `raw_trd_order_pay_inc_d.ini` |
														
 
															+| **导出** | **Hive → 外部服务** | `{源 Hive 表名}__{目标 db_type}_{目标 instance}.ini` | `jobs/ads/{域}/` | `ads_trd_gmv_d__mysql_bi.ini`、`ads_trd_gmv_d__pg_api.ini` |
														
 
															+| 一次性 | 任意 | `{yyyymmdd}_{描述}.ini` | `manual/{子类}/` | `20260415_backfill_hobby_orders.ini` |
														
 
															+
														
 
															+**导出类双下划线规则：**
														
 
															+
														
 
															+- **`__`（双下划线）是"导出"的视觉标志**，和五段式表名内部的单下划线分层，一眼能识别"这是 Hive 往外写"
														
 
															+- 前段 = 源 Hive 表名（五段式），后段 = `{目标 db_type}_{目标 instance}`，直接对应 writer 里的 `dataSource = {db_type}/{instance}`，写 ini 时不用二次翻译
														
 
															+- 同一张 Hive 表扇出多个下游时（如 `ads_trd_gmv_d` 同时导出到 MySQL BI 库和 PG API 库）**不撞名**；撞名的唯一可能是同源表 + 同目标实例，那本来就是同一个任务
														
 
															+
														
 
															+**通用约定：**
														
 
															+
														
 
															+- **一套代码跑多环境**：不在 ini 文件名里加 `prod` / `dev` / `test` 前缀。环境差异体现在 `datasource/{db_type}/{env}/{instance}.ini`，由脚本根据 `-env` 参数注入
														
 
															+- ini 内 reader/writer 的 `dataSource` 字段只写 `{db_type}/{instance}`（不含 env），例如 `dataSource = mongo/hobby`
														
 
															+- DataX 生成引擎（`dw_base/datax/job_config_generator.py`）对文件名**不做校验**，上述命名规则是人/AI 写作约定，靠 code review 保证
														
 
															+- 命名唯一性保证 JSON 输出目录 `conf/datax-json/{env}/{ini_basename}.json` 不会互相覆盖
														
 
															+
														
 
															+**参考样板**：`conf/templates/datax/{raw,ads,manual}/*.template.ini` 提供各类同步场景的字段齐全样本，新开发者和 AI 写新 ini 时抄这里。
														
 
															+
														
 
															+**为什么不按老项目的 `{from}-{to}-{db}-{table}.ini` 命名**：
														
 
															+- 同步方向已经在 ini 的 `[reader]` / `[writer]` section 的 `dataSource` 里体现，文件名再写一遍是冗余
														
 
															+- 目标/源表名命名能与 `manual/ddl/{表名}.sql` 和 `jobs/{layer}/{域}/{表名}.sql` 一一对应，便于 `grep` 追一张表的完整生命周期
														
 
															+
														
 
															 ---
														
 
															 ## 4. 字段命名规则
														
@@ -393,6 +422,9 @@ STORED AS ORC;
 
															 | dws | `dws_{域}_{实体}_{主题}_{窗口}` | 聚合维度+主题 | 时间窗口后缀 |
														
 
															 | tdm | `tdm_{域}_{tag\|profile\|crowd_*}_ful_d` | 表类型（长表/宽表/人群包） | `ful_d` |
														
 
															 | ads | `ads_{域}_{用途描述}` | 应用场景 | 无 |
														
 
															+| DataX ini 采集 | `{目标 Hive 表名}.ini`（见 §3.9） | 五段式表名 | `.ini` |
														
 
															+| DataX ini 导出 | `{源 Hive 表名}__{目标 db_type}_{目标 instance}.ini`（见 §3.9） | 双下划线分隔源/目标 | `.ini` |
														
 
															+| DataX ini 一次性 | `{yyyymmdd}_{描述}.ini`（见 §3.9） | 日期前缀避撞 | `.ini` |
														
 
															 ## 9. 合规 Checklist（建表前自检）
														
--- a/kb/90-重构路线.md
+++ b/kb/90-重构路线.md
@@ -46,9 +46,19 @@
 
															 | `HADOOP_CONF_DIR='/etc/hadoop/conf'` | `__init__.py` | 使用系统环境变量 |
														
 
															 | `LOG_ROOT_DIR="/opt/data/log"` | `init.sh`、`__init__.py` | 移入 `conf/env.sh` |
														
 
															 | 钉钉 access_token | `dingtalk_notifier.py` | 移入 `conf/alerter.conf`（敏感项） |
														
 
															-| 企微 Webhook Key | `alerter_constants.py` | 移入 `conf/alerter.conf`（敏感项） |
														
 
															+| 企微 Webhook Key | `dw_base/common/alerter_constants.py` | 外移到 `conf/alerter.ini`（**入库**——部署靠 git pull，gitignore 会拉不到；webhook key 不算高敏感，最多被拿去发垃圾消息），Python 侧改 ConfigParser 加载；`alerter_constants.py` 整个删除 |
														
 
															 | DS API 地址 | `ds/config/base_config.yaml` | 已在 yaml，保持即可 |
														
 
															 | Spark 默认参数（executor/driver/shuffle/sql.*） | `dw_base/spark/spark_sql.py` 构造函数 + `.config(...)` 链 | 移入 `conf/spark-defaults.yaml`，SQL 文件可用 `SET` 覆盖，见 §2.3 |
														
 
															+| DataX ini 路径前缀剥离 `conf/datax/config/` | `bin/datax-single-job-starter.sh`（TEMP 处理）、`bin/datax-job-config-generator.py`（`replace('conf/datax/config/', '')`）、`bin/datax-multiple-job-starter.sh`（日志路径派生） | 原目录已整体挪到 `conf/bak/` 并 gitignore，脚本里 replace 现在是 no-op 死逻辑。去除前缀假设，改为靠 ini 文件名（= 任务唯一标识，见 `21-命名规范.md` §3.9）识别用途 |
														
 
															+| DataX 生成 JSON 输出目录名 `conf/datax/generated` | `bin/datax-job-config-generator.py` 末尾 `default_output_dir`、`bin/datax-single-job-starter.sh` 第 89/118 行、`bin/datax-multiple-job-starter.sh` 第 187 行、`.gitignore` | 目录改名 `conf/datax-json/`；子路径扁平化为 `conf/datax-json/{env}/{ini_basename}.json`（仅按 env 分一级，去掉 src_dst / project_layer_env 等派生层级）；`.gitignore` 同步改 |
														
 
															+| JOB_NAME / JSON 文件名的 `ini→json` 转换逻辑重复实现 | Python 侧 `bin/datax-job-config-generator.py:126`（`os.path.basename(gcf).replace('.ini', '.json')`）+ Bash 侧 `bin/datax-single-job-starter.sh:88`（`basename .ini`） | 合一到 `dw_base.datax.path_utils.job_name_from_ini()`（或类似工具）；Bash 侧通过 `python3 -c` 调用或在 `bin/common/init.sh` 定义等价 shell 函数，单一来源 |
														
 
															+| DataX 脚本不支持 `-env` 参数 | `bin/datax-*.sh` / `bin/datax-job-config-generator.py` 参数解析 | 新增 `-env` 参数，由 ini 内 `dataSource = {db_type}/{instance}` 拼接成 `datasource/{db_type}/{env}/{instance}.ini` 的完整路径；详见 §2.5 |
														
 
															+| `datasource/` 单层组织（无环境子目录） | `datasource/{db_type}/{instance}.ini` | 改为 `datasource/{db_type}/{env}/{instance}.ini`（运维侧权限隔离 + 支持一套代码跑多环境） |
														
 
															+| ini 里 `dataSource` 字段拼接环境后缀 | 老项目写法 `dataSource = pg-hobby-prod` | 改为 `dataSource = {db_type}/{instance}`（不含环境），env 由脚本注入 |
														
 
															+| 导出类 ini 扇出撞名风险 | `jobs/ads/{域}/` 下 ini 若都以源 Hive 表名命名，同一张 ads 表扇出到多个目标库时会重名覆盖 | 命名规则改为 `{源 Hive 表名}__{目标 db_type}_{目标 instance}.ini`（双下划线分隔源/目标），见 `21-命名规范.md` §3.9 |
														
 
															+| `dw_base/common/template_constants.py` 大量死代码 | 定义了 20+ 个 SQL 模板路径常量，实际只有 2 个（`MYSQL_HIVE_CREATE_TABLE_TEMPLATE` / `MYSQL_HIVE_HBASE_CREATE_TABLE_TEMPLATE`）被引用，其余 18 个零 import | 整个文件删除；连带废弃下一条 |
														
 
															+| `MySQLReader.generate_hive_ddl()` / `generate_hive_over_hbase_ddl()` 自动建表 DDL 路径 | `dw_base/datax/plugins/reader/mysql_reader.py:195/222`，被 `bin/datax-gc-generator.py:616/728` 调用；且 `conf/template/` 目录在新项目根本不存在，真调用会 FileNotFoundError | 整段路径废弃——与 CLAUDE.md 约定的 `manual/ddl/` 是 DDL 唯一来源相冲突。`datax-gc-generator.py` 仅生成 ini 配置，不再输出 CREATE TABLE DDL；DDL 由开发者按 `21-命名规范.md` 手写到 `manual/ddl/` |
														
 
															+| 缺少集中的人/AI 参考模板目录 | —（新增） | 已建 `conf/templates/{datasource,datax/{raw,ads,manual},sql,ddl}/`，模板用 `*.template.{ini,sql}` 双扩展名。与上条废弃的运行时模板完全不同：这里的模板不被任何代码读取，只供人/AI 对照写新文件；`kb/README.md` 已加入口 |
														
 
															 ### 2.2 建议的配置结构
														
@@ -191,6 +201,89 @@ conf/alerter.conf
 
															 仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse` 时（阶段 1 尾声），`.idea/tendata-warehouse-release.iml` 也要改名为 `.idea/poyee-data-warehouse.iml`，并同步更新 `.idea/modules.xml` 里的引用。这一步不属于 `.gitignore` 的范畴，但和它是同一天会碰到的事，在阶段 1 的仓库改名 checklist 里一起记一笔。
														
 
															+### 2.5 DataX 脚本多环境支持与路径解耦
														
 
															+
														
 
															+**现状（脚本残留老逻辑，新项目的业务 ini 未走这条路径）：**
														
 
															+
														
 
															+1. **脚本里残留路径前缀剥离**：`bin/datax-single-job-starter.sh` 和 `bin/datax-job-config-generator.py` 仍通过剥离 `conf/datax/config/` 前缀从源 ini 路径里派生 `SRC_DST` / `PROJECT_LAYER_ENV`，用于生成 JSON 输出路径和 `datax-multiple-job-starter.sh` 的日志目录。该目录已整体挪到 `conf/bak/` 并 gitignore，新项目 ini 放在 `jobs/raw/{domain}/` / `jobs/ads/{domain}/` / `manual/`，前缀不匹配时剥离变成 no-op，输出会落到形如 `conf/datax/generated/jobs/raw/trd/xxx.json` 的位置——能跑但与新约定不符。代码里这段死逻辑要清理，同时输出根目录也一并改名为 `conf/datax-json/`。
														
 
															+2. **没有 `-env` 参数**：所有脚本不认 `-env`。
														
 
															+3. **数据源配置单层组织**：老约定 `datasource/{db_type}/{instance}.ini` 把环境和实例扁平混在一起，要么靠不同的 `{instance}` 名字（如 `hobby-prod` / `hobby-dev`）区分，要么靠部署时替换文件。第一种让 ini 里写 `dataSource = pg-hobby-prod` 这种绑死环境的字符串；第二种让开发侧不知道当前跑的是哪套。
														
 
															+
														
 
															+**目标态：一套代码多环境运行**
														
 
															+
														
 
															+**三件事联动（顺序重要）：**
														
 
															+
														
 
															+#### 阶段 1：datasource 改按环境分子目录
														
 
															+
														
 
															+- 改为 `datasource/{db_type}/{env}/{instance}.ini`
														
 
															+- 运维在集群侧按 `prod` / `test` / `dev` 建子目录，各自放一套连接配置
														
 
															+- 权限隔离更方便：prod 子目录只给生产账号可读
														
 
															+
														
 
															+#### 阶段 2：ini 里 `dataSource` 字段去掉环境后缀
														
 
															+
														
 
															+- 老写法：`dataSource = pg-hobby-prod`
														
 
															+- 新写法：`dataSource = pg/hobby`（只写 `{db_type}/{instance}`，不含 env）
														
 
															+- **变更项目下所有存量 ini**：当前 `conf/bak/` 下的老配置不处理，等业务新 ini 从零写起时就按新规范
														
 
															+
														
 
															+#### 阶段 3：DataX 脚本加 `-env` 参数 + env 注入逻辑
														
 
															+
														
 
															+**`bin/common/init.sh` 扩展：**
														
 
															+
														
 
															+```bash
														
 
															+# 从命令行参数里挑出 -env，或 fall back 到 conf/env.sh
														
 
															+# 不读环境变量（用户明确要求不污染 shell 环境）
														
 
															+# 不做"按用户/部署目录自动派生"——env 必须来自 -env 或 conf/env.sh，二者都没给就退出
														
 
															+resolve_env() {
														
 
															+  for arg in "$@"; do
														
 
															+    case $arg in
														
 
															+      -env) NEXT_IS_ENV=1 ;;
														
 
															+      -env=*) DW_ENV="${arg#*=}" ;;
														
 
															+      *) [ -n "$NEXT_IS_ENV" ] && DW_ENV="$arg" && unset NEXT_IS_ENV ;;
														
 
															+    esac
														
 
															+  done
														
 
															+  if [ -z "$DW_ENV" ]; then
														
 
															+    # fall back 到 conf/env.sh（入仓库的默认配置）
														
 
															+    [ -f "${BASE_DIR}/conf/env.sh" ] && . "${BASE_DIR}/conf/env.sh"
														
 
															+  fi
														
 
															+  if [ -z "$DW_ENV" ]; then
														
 
															+    echo "[FATAL] DW_ENV not set: pass -env <dev|test|prod> or define DW_ENV in conf/env.sh" >&2
														
 
															+    exit 1
														
 
															+  fi
														
 
															+  export DW_ENV
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+**`conf/env.sh` 草案**（**入仓库**，开发者维护，服务本地调试）：
														
 
															+
														
 
															+```bash
														
 
															+# 全局环境变量默认值
														
 
															+# env 判定优先级：命令行 -env > 本文件 DW_ENV
														
 
															+# 默认锁定为 dev：本地调试开箱即用；DolphinScheduler / 生产脚本总是命令行显式 -env prod 覆盖
														
 
															+DW_ENV=dev
														
 
															+# LOG_ROOT_DIR=/opt/data/log
														
 
															+```
														
 
															+
														
 
															+**`dw_base/datax/job_config_generator.py` 改造**：
														
 
															+
														
 
															+- `JobConfigGenerator.__init__` 接受新参数 `env`
														
 
															+- 各 reader/writer 插件在解析 `dataSource = pg/hobby` 时，自动拼成 `datasource/pg/{env}/hobby.ini` 的完整路径再去读连接信息
														
 
															+
														
 
															+**`bin/datax-job-config-generator.py` 改造**：
														
 
															+
														
 
															+- 新增 `-env` 参数
														
 
															+- **去掉** `temp = os.path.dirname(gcf).replace('conf/datax/config/', '').split('/')` 这段路径前缀剥离
														
 
															+- JSON 输出目录从 `conf/datax/generated/` 改名为 `conf/datax-json/`，子路径简化为 `conf/datax-json/{env}/{ini_basename}.json`（扁平，按 env 分一级；`ini_basename` 由 `21-命名规范.md` §3.9 保证全局唯一——采集类 = 目标 Hive 表名、导出类 = `{源}__{db_type}_{instance}`、一次性 = 日期前缀）
														
 
															+- `.gitignore` 同步把 `conf/datax/generated` 改成 `conf/datax-json`
														
 
															+
														
 
															+#### 阶段 4：启动脚本层串起来
														
 
															+
														
 
															+- `datax-single-job-starter.sh` 调用 generator 时把 `$DW_ENV` 透传过去
														
 
															+- `datax-multiple-job-starter.sh` 日志目录改为 `${LOG_ROOT_DIR}/datax/${DW_ENV}/${START_DATE}/${JOB_NAME}.log`（把 `SRC_DST` / `PROJECT_LAYER_ENV` 彻底移除）
														
 
															+
														
 
															+**兼容性**：阶段 1-3 期间 `conf/bak/` 下的老 ini 不参与新流程，保留作为老项目历史资产；新业务 ini 全部从零按新规范写。
														
 
															+
														
 
															+**参考**：kb/00-项目架构.md §4.3（DataX 脚本详细使用）、§6.4（多环境机制）、kb/21-命名规范.md §3.9（DataX ini 文件命名）。
														
 
															+
														
 
															 ## 三、`__init__.py` 瘦身（高优先级）
														
 
															 **现状：** `tendata/__init__.py` 约 120 行，import 即执行以下操作：
														
--- a/kb/README.md
+++ b/kb/README.md
@@ -64,13 +64,10 @@
 
															 4. [21-命名规范](21-命名规范.md) — 熟悉命名规则（★ 最高频参考）
														
 
															 5. [30-开发规范](30-开发规范.md) — 熟悉开发流程
														
 
															-**AI 辅助开发路径：**
														
 
															-- 建表 / 写 SQL → `21-命名规范.md` + `20-数仓分层与建模.md`
														
 
															-- 设计指标 → `22-指标体系.md`
														
 
															-- 设计标签 → `23-标签体系.md`
														
 
															-- 重构旧代码 → `90-重构路线.md`
														
 
															-- 排查权限问题 → `02-权限与账号.md`
														
 
															-## 原始导出
														
 
															+**查样板：**
														
 
															+- DataX ini 样板 → `conf/templates/datax/{raw,ads,manual}/*.template.ini`
														
 
															+- Spark SQL 样板 → `conf/templates/sql/*.template.sql`
														
 
															+- 建表 DDL 样板 → `conf/templates/ddl/*.template.sql`
														
 
															+- 数据源连接样板 → `conf/templates/datasource/*.template.ini`
														
 
															-`kb/Bigdata-space-export (5)/` 是公司公共知识库「大数据空间」的导出副本。本目录下的整合文档已从中提取了与 `poyee-data-warehouse` 数仓建设相关的核心信息。如需查看原始资料（含截图），可直接访问该子目录。