1 неделя назад · 788a7d71b5
--- a/kb/13-埋点同步-设计.md
+++ b/kb/13-埋点同步-设计.md
@@ -97,3 +97,13 @@
 
				 
			
 
				 - ods 层 schema 设计（按事件分流解析 params_json）
			
 
				 - dwd / dws / ads 层建模
			
 
				+
			
 
				+## 8.疑问
			
 
				+
			
 
				+|      | dt       | _c1     |
			
 
				+| :--- | :------- | :------ |
			
 
				+| 1    | 20260407 | 1820000 |
			
 
				+| 2    | 20260409 | 1400000 |
			
 
				+| 3    | 20260408 | 1470000 |
			
 
				+
			
 
				+为什么文件行数都是整万？是否设置了max_pages 上限。历史数据入仓时需打开限制。
			
--- a/kb/14-埋点同步-开发.md
+++ b/kb/14-埋点同步-开发.md
@@ -127,8 +127,6 @@ def apply_mask(event_name: str, properties: Dict, conf: Dict) -> Dict:
 
				 2. 调 `bin/spark-sql-starter.py -f` 跑 SQL
			
 
				 3. 清 HDFS 临时目录
			
 
				 
			
 
				-> 不走 Python 单机解析：1.4M event/天单机不利用集群算力；改 PySpark + UDF 后，与增量路径共用 §2.3 UDF，逻辑统一。
			
 
				-
			
 
				 ### 3.2 CLI
			
 
				 
			
 
				 继承现脚本 `-dt YYYYMMDD` 4 种形式（单日 / `20260407-` / 区间 / 离散）；复用 `dw_base.utils.datetime_utils.get_date_range` 解析。
			
@@ -180,6 +178,6 @@ DolphinScheduler 工作流，每日 T+1 跑一次。失败重跑（INSERT OVERWR
 
				 - [ ] 写 `dw_base/udf/business/spark_traces_udf.py`（封装 mask 为 Spark UDF）
			
 
				 - [ ] 写历史 SQL `jobs/raw/usr/raw_usr_traces_his_o.sql` + 包装脚本 `.py`（hdfs put + 调 starter + 清 tmp）
			
 
				 - [ ] 写增量 SQL `jobs/raw/usr/raw_usr_traces_apd_d.sql`（CREATE TEMP VIEW ES + INSERT OVERWRITE）
			
 
				-- [ ] 历史 4 个 dt 文件按新方案重跑
			
 
				+- [ ] 历史gz文件按新方案重跑
			
 
				 - [ ] 上 DS 调度