2 veckor sedan · a850606d5d
--- a/kb/00-项目架构.md
+++ b/kb/00-项目架构.md
@@ -954,7 +954,7 @@ FROM v_raw_trd_legacy_order_stage
 
				 **为什么用 SQL 而不是 YAML 描述 CSV 任务**：
			
 
				 - 复用 `SparkSQL` 现有执行链，`bin/csv-to-hdfs-starter.py` 只需在 `bin/spark-sql-starter.py` 之外加一层 gzip+put+清理的薄壳，不需要单独的 YAML 渲染器
			
 
				 - `USING csv OPTIONS(...)` 本身就是 Spark 的声明式 CSV 读取语法，YAML 再封装一层是多余的
			
 
				-- 与其他分层文件类型一致（除 raw DataX ini 外，其他都是 `.sql`），AI 与人都不需要切换上下文
			
 
				+- 与其他分层文件类型一致（除 raw DataX ini 外，其他都是 `.sql`），读者不需要切换上下文
			
 
				 
			
 
				 ### 9.3.1 raw → ods 历史回刷（his → 分区表）
			
 
				 
			
--- a/kb/21-命名规范.md
+++ b/kb/21-命名规范.md
@@ -1,7 +1,7 @@
 
				 # 数仓命名规范
			
 
				 
			
 
				 > 本文档是 `poyee-data-warehouse` 数据仓库的命名权威规范。所有建表、字段、文件、目录命名必须遵循本规范。
			
 
				-> 给人看：作为开发手册；给 AI 看：作为代码生成和 Review 的依据。
			
 
				+> 开发手册与 code review 的参考依据。
			
 
				 
			
 
				 ## 1. 核心原则
			
 
				 
			
@@ -267,10 +267,10 @@ ads 是面向具体应用场景的输出表（报表、接口、导出），表
 
				 
			
 
				 - **一套代码跑多环境**：不在 ini 文件名里加 `prod` / `dev` / `test` 前缀。环境差异体现在 `datasource/{db_type}/{env}/{instance}.ini`，由脚本根据 `-env` 参数注入
			
 
				 - ini 内 reader/writer 的 `dataSource` 字段只写 `{db_type}/{instance}`（不含 env），例如 `dataSource = mongo/hobby`
			
 
				-- DataX 生成引擎（`dw_base/datax/job_config_generator.py`）对文件名**不做校验**，上述命名规则是人/AI 写作约定，靠 code review 保证
			
 
				+- DataX 生成引擎（`dw_base/datax/job_config_generator.py`）对文件名**不做校验**，上述命名规则是开发者写作约定，靠 code review 保证
			
 
				 - 命名唯一性保证 JSON 输出目录 `conf/datax-json/{env}/{ini_basename}.json` 不会互相覆盖
			
 
				 
			
 
				-**参考样板**：`conf/templates/datax/{raw,ads,manual}/*.template.ini` 提供各类同步场景的字段齐全样本，新开发者和 AI 写新 ini 时抄这里。
			
 
				+**参考样板**：`conf/templates/datax/{raw,ads,manual}/*.template.ini` 提供各类同步场景的字段齐全样本，新开发者写新 ini 时抄这里。
			
 
				 
			
 
				 **为什么不按老项目的 `{from}-{to}-{db}-{table}.ini` 命名**：
			
 
				 - 同步方向已经在 ini 的 `[reader]` / `[writer]` section 的 `dataSource` 里体现，文件名再写一遍是冗余
			
--- a/kb/90-重构路线.md
+++ b/kb/90-重构路线.md
@@ -58,7 +58,7 @@
 
				 | 导出类 ini 扇出撞名风险 | `jobs/ads/{域}/` 下 ini 若都以源 Hive 表名命名，同一张 ads 表扇出到多个目标库时会重名覆盖 | 命名规则改为 `{源 Hive 表名}__{目标 db_type}_{目标 instance}.ini`（双下划线分隔源/目标），见 `21-命名规范.md` §3.9 |
			
 
				 | `dw_base/common/template_constants.py` 大量死代码 | 定义了 20+ 个 SQL 模板路径常量，实际只有 2 个（`MYSQL_HIVE_CREATE_TABLE_TEMPLATE` / `MYSQL_HIVE_HBASE_CREATE_TABLE_TEMPLATE`）被引用，其余 18 个零 import | 整个文件删除；连带废弃下一条 |
			
 
				 | `MySQLReader.generate_hive_ddl()` / `generate_hive_over_hbase_ddl()` 自动建表 DDL 路径 | `dw_base/datax/plugins/reader/mysql_reader.py:195/222`，被 `bin/datax-gc-generator.py:616/728` 调用；且 `conf/template/` 目录在新项目根本不存在，真调用会 FileNotFoundError | 整段路径废弃——与 CLAUDE.md 约定的 `manual/ddl/` 是 DDL 唯一来源相冲突。`datax-gc-generator.py` 仅生成 ini 配置，不再输出 CREATE TABLE DDL；DDL 由开发者按 `21-命名规范.md` 手写到 `manual/ddl/` |
			
 
				-| 缺少集中的人/AI 参考模板目录 | —（新增） | 已建 `conf/templates/{datasource,datax/{raw,ads,manual},sql,ddl}/`，模板用 `*.template.{ini,sql}` 双扩展名。与上条废弃的运行时模板完全不同：这里的模板不被任何代码读取，只供人/AI 对照写新文件；`kb/README.md` 已加入口 |
			
 
				+| 缺少集中的开发者参考模板目录 | —（新增） | 已建 `conf/templates/{datasource,datax/{raw,ads,manual},sql,ddl}/`，模板用 `*.template.{ini,sql}` 双扩展名。与上条废弃的运行时模板完全不同：这里的模板不被任何代码读取，只供开发者对照写新文件；`kb/README.md` 已加入口 |
			
 
				 
			
 
				 ### 2.2 建议的配置结构