il y a 2 semaines · 2c68e8407b
--- a/kb/00-项目架构.md
+++ b/kb/00-项目架构.md
@@ -668,8 +668,10 @@ bin/datax-multiple-hive-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -e
 
				 部署方式：git pull + rsync (publish.sh → re-all 分发)
			
 
				 
			
 
				 日志目录：
			
 
				-  统一输出到 /opt/data/log/{module}/{dt}/{file}.log
			
 
				-  （老项目按 whoami 分流到 /opt/data/log 或 ~/data/log，参见 90-重构路线.md）
			
 
				+  统一输出到 ${LOG_ROOT_DIR}/{module}/{dt}/{file}.log
			
 
				+  （LOG_ROOT_DIR 默认 ${HOME}/log，外配在 conf/env.sh；
			
 
				+   release 用户 bigdata 落 /home/bigdata/log/...，个人落各自家目录。
			
 
				+   老项目 whoami 分流 /opt/data/log 与 ~/data/log 已废弃，见 90-重构路线.md §7.2.1）
			
 
				 ```
			
 
				 
			
 
				 ## 8. manual/ 目录执行规范
			
--- a/kb/30-开发规范.md
+++ b/kb/30-开发规范.md
@@ -135,7 +135,7 @@ flowchart TD
 
				 - 禁用 `dict.__contains__(key)`，改用 `key in dict`
			
 
				 - 禁止 SQL 字符串拼接（防 SQL 注入），使用参数化查询
			
 
				 - 硬编码配置项必须外置到 `conf/`（见 `90-重构路线.md` §2）
			
 
				-- 敏感信息（Webhook token、数据库账密）**不得入库**
			
 
				+- 敏感信息（数据库账密）**不得入库**
			
 
				 
			
 
				 ### 4.2 SQL
			
 
				 
			
@@ -180,9 +180,6 @@ flowchart TD
 
				 4. **Hive/Spark SQL 字段常很长**：数仓里 `trd_order_pay_amt_rmb_total_1d` 这种 30+ 字符的字段名很常见，对齐后右边要留 40+ 空格，一屏横向放不下反而更难读
			
 
				 5. **可读性不需要靠对齐**：每个字段一行 + 逗号前置已足够清晰
			
 
				 
			
 
				-#### 4.2.3 非 JetBrains 用户
			
 
				-
			
 
				-用 VSCode / Cursor / 纯 vim 的同学暂时手工遵守上述约定即可。后续若团队全面切换到非 JetBrains 工具链，会补一份 `.sqlfluff` 配置作为等价物，这份 xml 会随之归档或删除。
			
 
				 
			
 
				 ### 4.3 Shell
			
 
				 
			
--- a/kb/90-重构路线.md
+++ b/kb/90-重构路线.md
@@ -44,7 +44,7 @@
 
				 | 项目部署目录 `poyee-data-warehouse/` | `publish.sh` | 新项目发布目录为 `/home/bigdata/release/poyee-data-warehouse/` |
			
 
				 | `DATAX_WORKERS=(m3 d1 d2 d3 d4)` + `DATAX_WORKERS_WEIGHTS` 权重 map | `init.sh:18-31`（含展开 `DATAX_WORKERS_QUEUE` 的循环） | workers 列表 + 权重 map **整体**移入 `conf/workers.conf`（ini 或 yaml 格式），`init.sh` 仅保留读取 + 展开逻辑 |
			
 
				 | `HADOOP_CONF_DIR='/etc/hadoop/conf'` | `__init__.py` | 使用系统环境变量 |
			
 
				-| `LOG_ROOT_DIR="/opt/data/log"` | `init.sh`、`__init__.py` | 移入 `conf/env.sh` |
			
 
				+| `LOG_ROOT_DIR="/opt/data/log"` + whoami 分流 | `init.sh`、`__init__.py` | 删除 whoami 分支，单值改为 `${HOME}/log` 并迁入 `conf/env.sh`，见 §7.2.1 |
			
 
				 | 钉钉 access_token | `dingtalk_notifier.py` | 移入 `conf/alerter.conf`（敏感项） |
			
 
				 | 企微 Webhook Key | `dw_base/common/alerter_constants.py` | 外移到 `conf/alerter.ini`（**入库**——部署靠 git pull，gitignore 会拉不到；webhook key 不算高敏感，最多被拿去发垃圾消息），Python 侧改 ConfigParser 加载；`alerter_constants.py` 整个删除 |
			
 
				 | DS API 地址 | `ds/config/base_config.yaml` | 已在 yaml，保持即可 |
			
@@ -149,58 +149,6 @@ default:
 
				    - 瘦身后 `__init__.py` 只保留最基本路径定义，`PROJECT_ROOT_PATH` 仍可用，但拆分过程中要保证 `spark_sql.py` 加载 yaml 的那行代码拿到的根路径与瘦身前一致
			
 
				    - **执行顺序建议**：先做 §三 `__init__.py` 瘦身，把 `PROJECT_ROOT_PATH` 的定义稳定下来；再做 §2.3 的 `spark-defaults.yaml` 接入。反过来做会踩到"瘦身后路径变了"的返工
			
 
				 
			
 
				-### 2.4 项目根 `.gitignore`
			
 
				-
			
 
				-**现状**：老项目根目录**没有** `.gitignore`，`.idea/workspace.xml`、`.claude/settings.local.json` 等个人状态文件随时可能被误提交，`conf/alerter.conf`（规划中的告警 Webhook，见 §2.2）也需要挡在版本控制外。
			
 
				-
			
 
				-**目标**：在项目根新建 `.gitignore`，在阶段 2 建立 `conf/` 目录的同一节奏下一起落地（顺序上先有 `.gitignore` 再把 `alerter.conf` 放进 `conf/`，避免敏感文件误入第一次提交）。
			
 
				-
			
 
				-**内容清单**：
			
 
				-
			
 
				-```gitignore
			
 
				-# ---- Claude Code 本地设置 ----
			
 
				-.claude/settings.local.json
			
 
				-
			
 
				-# ---- JetBrains 个人工作区 ----
			
 
				-# 注意：.idea/ 不整体 ignore —— modules.xml / *.iml / inspectionProfiles/ 是
			
 
				-# 团队可共享的项目结构配置，保留入库对新成员友好（开箱即用），这也是
			
 
				-# JetBrains 官方推荐做法
			
 
				-.idea/workspace.xml
			
 
				-.idea/tasks.xml
			
 
				-.idea/shelf/
			
 
				-.idea/usage.statistics.xml
			
 
				-.idea/dictionaries/
			
 
				-.idea/httpRequests/
			
 
				-
			
 
				-# ---- Python / 构建产物 ----
			
 
				-__pycache__/
			
 
				-*.py[cod]
			
 
				-*.egg-info/
			
 
				-.pytest_cache/
			
 
				-.venv/
			
 
				-venv/
			
 
				-
			
 
				-# ---- 运行期产物 ----
			
 
				-*.log
			
 
				-dw_base.zip
			
 
				-
			
 
				-# ---- 开发者本地草稿区（datax-gc-generator 输出的参考模板等） ----
			
 
				-workspace/
			
 
				-
			
 
				-# ---- 敏感配置（运行时自动从 datasource/ 注入或在 conf/ 本地覆盖） ----
			
 
				-conf/alerter.conf
			
 
				-```
			
 
				-
			
 
				-**注意事项**：
			
 
				-
			
 
				-1. **`.idea/` 不整体 ignore**：
			
 
				-   - 入库：`modules.xml`、`*.iml`、`inspectionProfiles/`（项目结构 + 代码检查规则，团队共享）
			
 
				-   - 忽略：`workspace.xml`、`tasks.xml`、`shelf/`、`usage.statistics.xml` 等个人/统计文件
			
 
				-2. **`.claude/` 也不整体 ignore**：`settings.json`、`commands/`、`agents/` 是团队共享配置；只忽略 `settings.local.json`
			
 
				-3. **`dw_base.zip`** 是 `spark_sql.py` 运行时生成的 PySpark 打包产物，属于构建产物不入库
			
 
				-4. **`workspace/`** 是开发者本地草稿区（`datax-gc-generator` 输出的参考模板、临时 SQL 调试等），**永不入仓**；开发者认可的成品再手动复制到 `jobs/` 或 `manual/` 下提交
			
 
				-5. **`conf/alerter.conf`** 一开始就放进 `.gitignore`：阶段 2 迁移钉钉/企微 Webhook 时，新建文件前 `.gitignore` 必须先就位
			
 
				-
			
 
				 **与仓库改名的联动**：
			
 
				 
			
 
				 仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse` 时（阶段 1 尾声），`.idea/tendata-warehouse-release.iml` 也要改名为 `.idea/poyee-data-warehouse.iml`，并同步更新 `.idea/modules.xml` 里的引用。这一步不属于 `.gitignore` 的范畴，但和它是同一天会碰到的事，在阶段 1 的仓库改名 checklist 里一起记一笔。
			
@@ -264,7 +212,7 @@ resolve_env() {
 
				 # env 判定优先级：命令行 -env > 本文件 DW_ENV
			
 
				 # 默认锁定为 dev：本地调试开箱即用；DolphinScheduler / 生产脚本总是命令行显式 -env prod 覆盖
			
 
				 DW_ENV=dev
			
 
				-# LOG_ROOT_DIR=/opt/data/log
			
 
				+LOG_ROOT_DIR="${HOME}/log"
			
 
				 ```
			
 
				 
			
 
				 **`dw_base/datax/job_config_generator.py` 改造**：
			
@@ -623,12 +571,15 @@ else
 
				 fi
			
 
				 ```
			
 
				 
			
 
				-**方向（凭记忆：用户 2026-04-18 确认）：分流策略保留，但目的地形态变更**
			
 
				+**方向：删除 whoami 分流，统一落 `${HOME}/log/{module}/{dt}/{file}.log`**
			
 
				+
			
 
				+- release 用户 `bigdata`：`$HOME` = `/home/bigdata`，日志落 `/home/bigdata/log/{module}/{dt}/{file}.log`
			
 
				+- 个人调试用户：`$HOME` = 各自家目录，日志落 `/home/{user}/log/{module}/{dt}/{file}.log`
			
 
				+- `$HOME` 本身就按用户隔离，无需代码再判断 `whoami`
			
 
				 
			
 
				-- release 用户（`bigdata` / `dolphinscheduler`）的生产调度作业：日志落到 `/opt/data/log/{module}/{dt}/{file}.log`
			
 
				-- 个人调试：落到 `~/log/{module}/{dt}/{file}.log`（不是原来的 `~/data/log`，去掉中间 `data/` 一级）
			
 
				+**为什么去掉 `/opt/data/log` 这条路**：原来 release 用户走系统级 `/opt/data/log` 的理由是"生产日志不应混在个人 home"，但 `bigdata` 本身就是专属调度账号，它的 `$HOME` 就是生产日志的合法归宿，不需要再多开一条系统目录。路径统一后，权限 / 轮转 / 清理策略只需按一套做。
			
 
				 
			
 
				-**为什么保留分流**：个人调试的日志本来就不该和生产日志混在同一系统目录（权限、轮转、审计、磁盘空间都不一样）；而统一路径又会引入"调度用户没写权限"类新问题。保留分流是务实选择。
			
 
				+**为什么保留 `LOG_ROOT_DIR` 在 `conf/env.sh` 里**：虽然默认值只有 `${HOME}/log` 一条，但仍作为**单一默认值**外配到 `conf/env.sh`，保留后期改路径的口子（比如某天运维要求共享一块专用盘，改一处即可，无需改代码）。
			
 
				 
			
 
				 **为什么改目的地形态为 `{module}/{dt}/{file}.log`**：
			
 
				 - 当前老结构 `/opt/data/log/datax/20260418/xxx.log` 已按 `{module}/{dt}/` 分，但不是所有入口都遵守（spark、ds 等散落在各自子结构下）
			
@@ -636,10 +587,9 @@ fi
 
				 - `{module}` 取值：`datax` / `spark` / `ds` / `csv` / `export` 等顶层入口名
			
 
				 
			
 
				 **代码改动：**
			
 
				-1. 保留 `whoami == RELEASE_USER` 分支逻辑，但分支里走新模板路径
			
 
				-2. `LOG_ROOT_DIR` 放到 `conf/env.sh`，两个分支里显式分别赋值为 `/opt/data/log` 和 `${HOME}/log`
			
 
				-3. 日志文件路径拼接统一走一个工具函数 `log_path(module, dt, file)`（Python 和 Shell 各一份），避免入口脚本各自拼
			
 
				-4. `RELEASE_USER` 作为单一来源定义在 `conf/env.sh`，与 publish.sh 共用
			
 
				+1. 删除 `whoami == RELEASE_USER` 分支逻辑，`LOG_ROOT_DIR` 单值从 `conf/env.sh` 读，默认 `${HOME}/log`
			
 
				+2. 日志文件路径拼接统一走一个工具函数 `log_path(module, dt, file)`（Python 和 Shell 各一份），避免入口脚本各自拼
			
 
				+3. `RELEASE_USER` 作为单一来源定义在 `conf/env.sh`，与 publish.sh 共用（日志路径已不依赖它，但 publish.sh 仍要）
			
 
				 
			
 
				 ### 7.3 部署改进
			
 
				 
			
--- a/kb/92-重构进度.md
+++ b/kb/92-重构进度.md
@@ -72,8 +72,8 @@
 
				 - [ ] `RELEASE_USER="alvis"` → `RELEASE_USER="bigdata"` 并迁入 `conf/env.sh`
			
 
				 - [ ] `RELEASE_ROOT_DIR="/home/alvis/release"` → `/home/bigdata/release` 并迁入 `conf/env.sh`
			
 
				 - [ ] `DATAX_WORKERS=(m3 d1 d2 d3 d4)` + 权重 map 迁入 `conf/workers.conf`
			
 
				-- [ ] `LOG_ROOT_DIR` 放入 `conf/env.sh`（release 分支 `/opt/data/log`、个人分支 `${HOME}/log`，见 `90-重构路线.md` §7.2.1）
			
 
				-- [ ] **保留 `whoami` 分流**，但目的地改为 `{LOG_ROOT}/{module}/{dt}/{file}.log`（统一 3 层模板）
			
 
				+- [ ] 删除 `whoami == RELEASE_USER` 分流，`LOG_ROOT_DIR` 单值 `${HOME}/log` 放入 `conf/env.sh`（见 `90-重构路线.md` §7.2.1）
			
 
				+- [ ] 日志路径统一模板 `${LOG_ROOT_DIR}/{module}/{dt}/{file}.log`（3 层）
			
 
				 - [ ] 实现 `log_path(module, dt, file)` 工具函数（Python / Shell 各一份，单一来源）
			
 
				 - [ ] 钉钉 access_token 从代码移入 `conf/alerter.conf`
			
 
				 - [ ] 企微 Webhook Key 从代码移入 `conf/alerter.conf`
			
@@ -152,3 +152,4 @@
 
				 | 2026-04-18 | 修正早先文档误述：`dw_base/__init__.py:16` 实际上有 `os.environ['HADOOP_CONF_DIR'] = '/etc/hadoop/conf'`（原 2026-04-18 changelog 早条说"仓库内无 HADOOP_CONF_DIR export"不准确） | — |
			
 
				 | 2026-04-18 | **§2.8 改造降级为"条件触发"**（第三轮修正）：用户提供老项目真实生产 json 样例显示只写 `defaultFS`（无 `hadoopConfig`）也能跑 HA —— 说明老 worker 节点 `hdfs-site.xml` 配置完整，`hadoopConfig` 是**可选覆盖**而非 HA 必要条件。前两轮论断（"必须加 `hadoopConfig`"、"运维把 xml 写死单 NN"）都被推翻。§2.8 加"新环境 HDFS HA 自检清单"（`echo $HADOOP_CONF_DIR` / grep xml HA keys / `hadoop fs -ls hdfs://nameservice1/`），三项全过则整节改造不做；仅任何一项失败才启动 ini schema 升级 + `HDFSDataSource` 改造。92 阶段 2 checklist 相应改为"自检前置 + 条件触发"4 条子项 | — |
			
 
				 | 2026-04-18 | **§2.8 锁定 Path B（第四轮，实测决定）**：新 CDH 环境三连实测（json 含/不含 `hadoopConfig` × `HADOOP_CONF_DIR` 设/不设），结论：对 DataX JVM，仅 json 的 `hadoopConfig` 块有效，`HADOOP_CONF_DIR` 无效（`datax.py` 不把 conf 目录入 classpath，与 `hadoop` 命令行不同）。老项目能纯 `defaultFS` 跑通最可能是老运维把 `hdfs-site.xml` 塞进了 DataX classpath 目录，新环境 `/opt/datax` 没这类预置文件。改造要点：(a) `HDFSDataSource.get_datasource_dict()` 吃 `[hadoop_config]` 整节注入 `hadoopConfig`；(b) 删除 `dw_base/__init__.py:16` `os.environ['HADOOP_CONF_DIR']` 死代码。简化 §2.8 文本：去掉 `ha_enabled` 开关（用 `[hadoop_config]` 节存在性代替）、去掉自检决策树（已决定）、去掉"运维手工改 IP"误记 | — |
			
 
				+| 2026-04-20 | **§7.2.1 再次反转**：删除 `whoami == RELEASE_USER` 分流，`LOG_ROOT_DIR` 改为单值默认 `${HOME}/log` 并保留在 `conf/env.sh`（外配后期可改）。理由：`$HOME` 天然按用户隔离（bigdata/个人用户家目录不同），代码判断是多余一层；`bigdata` 本身就是专属调度账号，其 `$HOME` 即是生产日志合法归宿，不需要系统级 `/opt/data/log` 那条路。同步更新 `90-重构路线.md §7.2.1`（核心段）+ `§2.1 硬编码表行` + `§2.4 env.sh 草稿` + `00-项目架构.md §6 部署段` + `92 阶段 2 checklist` | — |