|
|
@@ -127,8 +127,6 @@ def apply_mask(event_name: str, properties: Dict, conf: Dict) -> Dict:
|
|
|
2. 调 `bin/spark-sql-starter.py -f` 跑 SQL
|
|
|
3. 清 HDFS 临时目录
|
|
|
|
|
|
-> 不走 Python 单机解析:1.4M event/天单机不利用集群算力;改 PySpark + UDF 后,与增量路径共用 §2.3 UDF,逻辑统一。
|
|
|
-
|
|
|
### 3.2 CLI
|
|
|
|
|
|
继承现脚本 `-dt YYYYMMDD` 4 种形式(单日 / `20260407-` / 区间 / 离散);复用 `dw_base.utils.datetime_utils.get_date_range` 解析。
|
|
|
@@ -180,6 +178,6 @@ DolphinScheduler 工作流,每日 T+1 跑一次。失败重跑(INSERT OVERWR
|
|
|
- [ ] 写 `dw_base/udf/business/spark_traces_udf.py`(封装 mask 为 Spark UDF)
|
|
|
- [ ] 写历史 SQL `jobs/raw/usr/raw_usr_traces_his_o.sql` + 包装脚本 `.py`(hdfs put + 调 starter + 清 tmp)
|
|
|
- [ ] 写增量 SQL `jobs/raw/usr/raw_usr_traces_apd_d.sql`(CREATE TEMP VIEW ES + INSERT OVERWRITE)
|
|
|
-- [ ] 历史 4 个 dt 文件按新方案重跑
|
|
|
+- [ ] 历史gz文件按新方案重跑
|
|
|
- [ ] 上 DS 调度
|
|
|
|