Bläddra i källkod

docs(kb): 统一"开发者/code review"表述

tianyu.chu 2 veckor sedan
förälder
incheckning
a850606d5d
3 ändrade filer med 5 tillägg och 5 borttagningar
  1. 1 1
      kb/00-项目架构.md
  2. 3 3
      kb/21-命名规范.md
  3. 1 1
      kb/90-重构路线.md

+ 1 - 1
kb/00-项目架构.md

@@ -954,7 +954,7 @@ FROM v_raw_trd_legacy_order_stage
 **为什么用 SQL 而不是 YAML 描述 CSV 任务**:
 - 复用 `SparkSQL` 现有执行链,`bin/csv-to-hdfs-starter.py` 只需在 `bin/spark-sql-starter.py` 之外加一层 gzip+put+清理的薄壳,不需要单独的 YAML 渲染器
 - `USING csv OPTIONS(...)` 本身就是 Spark 的声明式 CSV 读取语法,YAML 再封装一层是多余的
-- 与其他分层文件类型一致(除 raw DataX ini 外,其他都是 `.sql`),AI 与人都不需要切换上下文
+- 与其他分层文件类型一致(除 raw DataX ini 外,其他都是 `.sql`),读者不需要切换上下文
 
 ### 9.3.1 raw → ods 历史回刷(his → 分区表)
 

+ 3 - 3
kb/21-命名规范.md

@@ -1,7 +1,7 @@
 # 数仓命名规范
 
 > 本文档是 `poyee-data-warehouse` 数据仓库的命名权威规范。所有建表、字段、文件、目录命名必须遵循本规范。
-> 给人看:作为开发手册;给 AI 看:作为代码生成和 Review 的依据。
+> 开发手册与 code review 的参考依据。
 
 ## 1. 核心原则
 
@@ -267,10 +267,10 @@ ads 是面向具体应用场景的输出表(报表、接口、导出),表
 
 - **一套代码跑多环境**:不在 ini 文件名里加 `prod` / `dev` / `test` 前缀。环境差异体现在 `datasource/{db_type}/{env}/{instance}.ini`,由脚本根据 `-env` 参数注入
 - ini 内 reader/writer 的 `dataSource` 字段只写 `{db_type}/{instance}`(不含 env),例如 `dataSource = mongo/hobby`
-- DataX 生成引擎(`dw_base/datax/job_config_generator.py`)对文件名**不做校验**,上述命名规则是人/AI 写作约定,靠 code review 保证
+- DataX 生成引擎(`dw_base/datax/job_config_generator.py`)对文件名**不做校验**,上述命名规则是开发者写作约定,靠 code review 保证
 - 命名唯一性保证 JSON 输出目录 `conf/datax-json/{env}/{ini_basename}.json` 不会互相覆盖
 
-**参考样板**:`conf/templates/datax/{raw,ads,manual}/*.template.ini` 提供各类同步场景的字段齐全样本,新开发者和 AI 写新 ini 时抄这里。
+**参考样板**:`conf/templates/datax/{raw,ads,manual}/*.template.ini` 提供各类同步场景的字段齐全样本,新开发者写新 ini 时抄这里。
 
 **为什么不按老项目的 `{from}-{to}-{db}-{table}.ini` 命名**:
 - 同步方向已经在 ini 的 `[reader]` / `[writer]` section 的 `dataSource` 里体现,文件名再写一遍是冗余

+ 1 - 1
kb/90-重构路线.md

@@ -58,7 +58,7 @@
 | 导出类 ini 扇出撞名风险 | `jobs/ads/{域}/` 下 ini 若都以源 Hive 表名命名,同一张 ads 表扇出到多个目标库时会重名覆盖 | 命名规则改为 `{源 Hive 表名}__{目标 db_type}_{目标 instance}.ini`(双下划线分隔源/目标),见 `21-命名规范.md` §3.9 |
 | `dw_base/common/template_constants.py` 大量死代码 | 定义了 20+ 个 SQL 模板路径常量,实际只有 2 个(`MYSQL_HIVE_CREATE_TABLE_TEMPLATE` / `MYSQL_HIVE_HBASE_CREATE_TABLE_TEMPLATE`)被引用,其余 18 个零 import | 整个文件删除;连带废弃下一条 |
 | `MySQLReader.generate_hive_ddl()` / `generate_hive_over_hbase_ddl()` 自动建表 DDL 路径 | `dw_base/datax/plugins/reader/mysql_reader.py:195/222`,被 `bin/datax-gc-generator.py:616/728` 调用;且 `conf/template/` 目录在新项目根本不存在,真调用会 FileNotFoundError | 整段路径废弃——与 CLAUDE.md 约定的 `manual/ddl/` 是 DDL 唯一来源相冲突。`datax-gc-generator.py` 仅生成 ini 配置,不再输出 CREATE TABLE DDL;DDL 由开发者按 `21-命名规范.md` 手写到 `manual/ddl/` |
-| 缺少集中的人/AI 参考模板目录 | —(新增) | 已建 `conf/templates/{datasource,datax/{raw,ads,manual},sql,ddl}/`,模板用 `*.template.{ini,sql}` 双扩展名。与上条废弃的运行时模板完全不同:这里的模板不被任何代码读取,只供人/AI 对照写新文件;`kb/README.md` 已加入口 |
+| 缺少集中的开发者参考模板目录 | —(新增) | 已建 `conf/templates/{datasource,datax/{raw,ads,manual},sql,ddl}/`,模板用 `*.template.{ini,sql}` 双扩展名。与上条废弃的运行时模板完全不同:这里的模板不被任何代码读取,只供开发者对照写新文件;`kb/README.md` 已加入口 |
 
 ### 2.2 建议的配置结构