2 săptămâni în urmă · 1632b96150
--- a/dw_base/utils/file_utils.py
+++ b/dw_base/utils/file_utils.py
@@ -6,7 +6,7 @@ from os import path
 
				 from typing import Dict, List
			
 
				 
			
 
				 abspath = os.path.abspath(__file__)
			
 
				-root_path = re.sub(r"tendata-warehouse.*", "tendata-warehouse", abspath)
			
 
				+root_path = re.sub(r"poyee-data-warehouse.*", "poyee-data-warehouse", abspath)
			
 
				 sys.path.append(root_path)
			
 
				 from dw_base import NORM_GRN, NORM_RED
			
 
				 from dw_base import PROJECT_ROOT_PATH
			
--- a/dw_base/utils/hdfs_merge_small_file.py
+++ b/dw_base/utils/hdfs_merge_small_file.py
@@ -4,7 +4,7 @@ import subprocess
 
				 import sys
			
 
				 
			
 
				 abspath = os.path.abspath(__file__)
			
 
				-root_path = re.sub(r"tendata-warehouse.*", "tendata-warehouse", abspath)
			
 
				+root_path = re.sub(r"poyee-data-warehouse.*", "poyee-data-warehouse", abspath)
			
 
				 sys.path.append(root_path)
			
 
				 
			
 
				 from pyspark.sql import SparkSession
			
--- a/kb/90-重构路线.md
+++ b/kb/90-重构路线.md
@@ -85,7 +85,7 @@ D 基础设施 ─────┘
 
				 | SQL 中的 ADD FILE | `ADD FILE tendata/spark/udf/xxx.py` | 全局替换 |
			
 
				 | zip 打包命令 | `zip -qr tendata.zip tendata` | 改为 `dw_base.zip dw_base` |
			
 
				 | addPyFile | `sparkContext.addPyFile('tendata.zip')` | 改为 `dw_base.zip` |
			
 
				-| 路径匹配正则 | `re.sub(r"tendata-warehouse.*", ...)` | 更新为新项目名 |
			
 
				+| 路径匹配正则 | `re.sub(r"tendata-warehouse.*", ...)` | ✅ 2026-04-22 已改为 `poyee-data-warehouse`（两处字面量：`dw_base/utils/file_utils.py:9` + `dw_base/utils/hdfs_merge_small_file.py:7`） |
			
 
				 | 目录名引用 | `PROJECT_ROOT_PATH` 相关逻辑 | 自动适配 |
			
 
				 
			
 
				 **建议做法：** 先用脚本批量替换，再逐文件审查。注意 `tendata` 字样可能出现在老项目的 Hive 数据库名、表名或 DataX 数据源 ini 名中，这些**属于老业务数据**、不应替换——新项目业务 SQL 从零开发，不涉及老库老表。
			
@@ -157,9 +157,7 @@ L3   SparkSQL(...) 显式传参  +  extra_spark_config  +  命令行 -sc
 
				 
			
 
				 **落地坑**：`SET spark.executor.memory=16g` 等资源类参数 session 启动后锁定，SQL 内 SET 不生效（Spark 行为，非本项目限制）。改资源只能走 L3。代码实现见 `dw_base/spark/spark_sql.py:_load_spark_conf_file` 与 `__init_spark_session`。
			
 
				 
			
 
				-**与仓库改名的联动**：
			
 
				-
			
 
				-仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse` 时（阶段 1 尾声），`.idea/tendata-warehouse-release.iml` 也要改名为 `.idea/poyee-data-warehouse.iml`，并同步更新 `.idea/modules.xml` 里的引用。这一步不属于 `.gitignore` 的范畴，但和它是同一天会碰到的事，在阶段 1 的仓库改名 checklist 里一起记一笔。
			
 
				+**与仓库改名的联动** ✅ 2026-04-22：仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse` 已完成（项目根由用户手动改名 + 路径正则两处字面量同步）。`.idea/*.iml` + `modules.xml` 因 `.idea` + `*.iml` 在 `.gitignore`，老 iml / modules.xml 引用 / workspace.xml module name 残留是本地 IDE 状态，不入库亦不影响运行，不处理。
			
 
				 
			
 
				 ### 2.5 DataX 脚本多环境支持与路径解耦
			
 
				 
			
--- a/kb/92-重构进度.md
+++ b/kb/92-重构进度.md
@@ -45,11 +45,11 @@
 
				 - [x] 全局替换 SQL 中的 `ADD FILE tendata/...` → `ADD FILE dw_base/...`（2026-04-15）
			
 
				 - [x] 全局替换 `zip -qr tendata.zip tendata` → `zip -qr dw_base.zip dw_base`（2026-04-15，spark_sql.py f-string 形式已手工修正）
			
 
				 - [x] 全局替换 `addPyFile('tendata.zip')` → `addPyFile('dw_base.zip')`（2026-04-15，publish.sh 同步更新）
			
 
				-- [ ] 全局替换路径正则 `re.sub(r"tendata-warehouse.*", ...)` → 使用新项目名（绑定仓库改名；2026-04-20 三批老业务清理后残留进一步缩小到 `dw_base/utils/` 剩余文件、`bin/doris-*-starter.py` 等；`diff_utils.py` / `polling_scheduler.py` / `drop_*.py` / `spark/udf/customs/*` 的字符串字面量已随删除一并清零）
			
 
				+- [x] 全局替换路径正则 `re.sub(r"tendata-warehouse.*", ...)` → `poyee-data-warehouse`（2026-04-22，`dw_base/utils/file_utils.py:9` + `dw_base/utils/hdfs_merge_small_file.py:7` 两处字面量）
			
 
				 - [x] 排查 `tendata_corp` 等数据库名/表名引用，**确认不要误替换**（2026-04-15，已确认保留：`tendata_corp`、`tendata_bigdata256!`、`ent_tendata_interface`、`api.tendata.cn`）
			
 
				 - [x] 新建 `jobs/` 目录 + `jobs/{raw,ods,dim,dwd,dws,tdm,ads}/` 子目录（2026-04-15，已放 `.gitkeep`，`dim/` 为顶层独立分层）
			
 
				 - [x] 新建 `manual/` 目录 + 5 个子目录（`ddl/`、`backfill/`、`fix/`、`adhoc/`、`archive/`）（2026-04-15，已放 `.gitkeep`；`manual/ddl/` 是所有 DDL 的唯一来源）
			
 
				-- [ ] 项目仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse`（**同步改名** `.idea/tendata-warehouse-release.iml` → `.idea/poyee-data-warehouse.iml` 并更新 `.idea/modules.xml` 引用）
			
 
				+- [x] 项目仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse`（2026-04-22，根目录已由用户手动改名；`.idea/*.iml` 与 `modules.xml` 不入库，残留不影响运行，不处理）
			
 
				 - [ ] 更新 `publish.sh` 中的部署路径与项目名
			
 
				 - [ ] 实现 `bin/csv-to-hdfs-starter.py`：本地 CSV → gzip（可选，大文件才压缩）→ `hdfs dfs -put` 到暂存区 → 调用 `SparkSQL` 执行 `jobs/raw/{域}/{表}.sql`（含 `USING csv` 临时视图 + `INSERT OVERWRITE`）→ 清理暂存。任务定义采用 SQL 格式（参见 `00-项目架构.md` §9.3 模板）
			
 
				 - [ ] 验证：在测试集群跑一次 `bin/spark-sql-starter.py` 样例，import 和 Spark 环境初始化能过
			
@@ -179,4 +179,5 @@
 
				 | 2026-04-21 | **SQL 风格基线尝试后撤回**：本轮前半段把 `sql_style.xml` 从 `conf/` 挪到项目根，并在 kb/30 §3.2.1 / §3.2.2 立了强基线（关键字/类型 UPPER、SELECT/FROM/ORDER/GROUP 一项一行、JOIN/ON 缩进、CASE/CTE/UNION/OVER/INSERT OVERWRITE/分号九条换行与缩进样例）。实测 IDEA formatter 支持面不足（KEYWORD_CASE 仅作用于新输入不改存量、SELECT 前置逗号长期不支持、ORDER/GROUP 一项一行的 option 名 JetBrains 非公开、UNION 前后空行 formatter 不管、CASE THEN/END 独立行无选项控制），强约束无法靠 formatter 落地。本轮后半段全部回退：删 `sql_style.xml`、kb/30 §3.2.1 / §3.2.2 整节删除、原 §3.2.3 不对齐 AS 重编号为 §3.2.1。团队 SQL 格式化改由各自 IDEA 默认 + 项目 SQL 方言统一设为 Spark 承担，冲突走 review | — |
			
 
				 | 2026-04-21 | **下线"阶段 3：业务 SQL 从零开发" + 取消 UDF 注释补齐 + kb/31 首批登记 13 个通用 UDF**：(a) 业务 SQL 从零开发属于新开发、不属于重构 scope：kb/92 总览表删阶段 3 行、阶段 3 整节删除、阶段 5 前置条件从"阶段 3 稳定"改为"新业务 SQL 稳定"；kb/90 §〇 聚簇表删 E 行、DAG 图删 E 节点、关键依赖边 "A+B+C→E" 与 "E→F" 合并为 "新业务 SQL 生产稳定→F"、§八 聚簇 E 整节删除、当前推进建议"等待前置"里 E 行改为 F 行。(b) 通用 UDF 注释已由开发者手动补完（`spark_common_udf.py` 13 个 `@udf` 函数均带 `UDF-XX` 顺序编号 + 分节注释），kb/90 §2.12 删"5 段模板 + 5 批 commit"规划、"40 函数"更正为"13 个注册 UDF"、标题从"注释完整化 + 自查表"改为"自查表"。(c) `kb/31-UDF手册.md` §1 通用 UDF 表从空壳填入 13 行（UDF-01/02/21/22/23/31/32/33/41/42/51/52/53），分类按代码中分节注释（JSON / ARRAY / STRING / NUMERIC-DATE-HASH / CROSS-TYPE），函数编号按代码中 `UDF-XX` 注释；§2 业务 UDF 保持占位；非 `@udf` 普通 `def`（18 个辅助 / 工具函数）不登记 | — |
			
 
				 | 2026-04-21 | **聚簇 B.1 `__init__.py` 瘦身（修剪式，不拆 `core/`）**：`dw_base/__init__.py` 从 127 行 → 83 行。三处删除：(a) `import findspark` + `findspark.init()` —— 查证 3 条事实后安全删：findspark 全仓仅此 2 处引用；入口全走 `python3 xxx.py`（非 `spark-submit`），`SPARK_HOME` 从未被代码注入，findspark 在 CDH 节点上 `which spark-submit → readlink -f` 反推出 parcel `$SPARK_HOME` 把 `$SPARK_HOME/python` 前插进 sys.path，但 pip pyspark 2.4.0 和 parcel pyspark 2.4.0 同版本，业务表现零差异（见里程碑 `datax+spark-smoke-2026-04-20` 冒烟链路，HMS 真正入口是 `SPARK_CONF_DIR=/etc/spark/conf/hive-site.xml`，与 findspark 无关）；(b) 删 21 个外部零引用的颜色常量 —— `CHG_BOLD` / `NORM_BLU` / `NORM_WHT` / 7×`BOLD_*` / 7×`BGRD_*`（if/else 两分支同步删），保留实际被引用的 6 个（`DO_RESET` / `NORM_RED` / `NORM_GRN` / `NORM_YEL` / `NORM_MGT` / `NORM_CYN`）；(c) 删 `IS_RUN_BY_NORMAL_USER` 状态变量（两处赋值外部无引用，仅内部 `elif` 分支走到时为 `True`，无消费者）。**不拆 `core/*` 的理由**：findspark 去掉后"懒加载"诉求大半消失，拆分需改 11 处调用点 import，ROI 低；py/sh 颜色双份是运行时分家的必然（跨 runtime 单源化要加 subprocess 解析，得不偿失），真冗余只是 py 侧定义超过实际被用的部分。联动：`requirements.txt:3` 删 `findspark==2.0.1`；`tests/README.md:26` findspark 段改写为 HMS 入口说明；`kb/00 §1` `__init__.py` 行注释去 findspark；`kb/90 §三` 改写为"已完成 · 修剪式"并附未拆 `core/` 的理由；`kb/90 §7.1` KEEP 行去 findspark + 末尾 TODO 行改写为"已删除" | — |
			
 
				+| 2026-04-22 | **仓库改名 `tendata-warehouse-release` → `poyee-data-warehouse` 收尾**：项目根目录由用户手动改名完成；代码侧 `dw_base/utils/file_utils.py:9` + `dw_base/utils/hdfs_merge_small_file.py:7` 两处 `re.sub(r"tendata-warehouse.*", ...)` 字面量同步更新。`.idea/*.iml` / `modules.xml` / `workspace.xml` 因 `.idea` + `*.iml` 在 `.gitignore`，属本地 IDE 状态，不入库亦不影响运行（老 `tendata-warehouse-release.iml` + modules.xml / workspace.xml 里的 module name 残留不处理）。联动 kb/90 §1.1 L88 表格行打勾 + §2.3 末尾"与仓库改名的联动"段压缩为一行记录 | — |
			
 
				 | 2026-04-21 | **聚簇 A.4 Spark 参数外配 + `spark_sql.py` 三级覆盖**：按业务调整频率拆两文件入库 —— `conf/spark-defaults.conf`（12 条底层行为/开关类，初始化后少改：`spark.sql.adaptive/broadcastTimeout/codegen/arrow*/files/statistics.*` + `spark.dynamicAllocation.enabled` + `spark.files.ignoreCorruptFiles` + `spark.debug.maxToStringFields` + `spark.port.maxRetries` + `hive.exec.orc.default.block.size`）+ `conf/spark-tuning.conf`（10 条资源/并行度/队列，业务早期常改：`spark.{driver,executor}.{memory,cores}` + `spark.executor.instances` + `spark.executor.memoryOverhead` + `spark.driver.maxResultSize` + `spark.default.parallelism` + `spark.sql.shuffle.partitions` + `spark.yarn.queue`）。`dw_base/spark/spark_sql.py` 改造：(a) 模块级新增 `_load_spark_conf_file(path)`，读 Spark 原生 `key value` 格式，支持 `#` 注释与空行，文件缺失返回 `{}` 容错单测；(b) `__init__` 10 个 tuning 相关构造参数默认值 `'2g' / 200 / ...` → `Optional[...] = None` sentinel，不破坏既有调用点显式传参；(c) `__init_spark_session` 原 22 条硬编码 `.config(...)` 链替换为三段：L1 先 `spark-defaults.conf` 后 `spark-tuning.conf`（相同 key tuning 覆盖 defaults）→ L2 `self._final_spark_config`（SQL 内 SET）→ L3 构造参数非 None 项 + `extra_spark_config`（L3 内 extra 覆盖 named），保持原"extra > SQL SET > named" 的向后兼容；日志分层打 `L1/L2/L3` 前缀便于排查。联动：`kb/90 §2.2` conf 结构加 `spark-tuning.conf` + `§2.3` 改写为两文件模型（去单文件草案）+ 删"坑 2"（B1 → A2 依赖边）+ 聚簇 L59 依赖边删 | — |