tianyu.chu 1 неделя назад
Родитель
Сommit
788a7d71b5
2 измененных файлов с 11 добавлено и 3 удалено
  1. 10 0
      kb/13-埋点同步-设计.md
  2. 1 3
      kb/14-埋点同步-开发.md

+ 10 - 0
kb/13-埋点同步-设计.md

@@ -97,3 +97,13 @@
 
 - ods 层 schema 设计(按事件分流解析 params_json)
 - dwd / dws / ads 层建模
+
+## 8.疑问
+
+|      | dt       | _c1     |
+| :--- | :------- | :------ |
+| 1    | 20260407 | 1820000 |
+| 2    | 20260409 | 1400000 |
+| 3    | 20260408 | 1470000 |
+
+为什么文件行数都是整万?是否设置了max_pages 上限。历史数据入仓时需打开限制。

+ 1 - 3
kb/14-埋点同步-开发.md

@@ -127,8 +127,6 @@ def apply_mask(event_name: str, properties: Dict, conf: Dict) -> Dict:
 2. 调 `bin/spark-sql-starter.py -f` 跑 SQL
 3. 清 HDFS 临时目录
 
-> 不走 Python 单机解析:1.4M event/天单机不利用集群算力;改 PySpark + UDF 后,与增量路径共用 §2.3 UDF,逻辑统一。
-
 ### 3.2 CLI
 
 继承现脚本 `-dt YYYYMMDD` 4 种形式(单日 / `20260407-` / 区间 / 离散);复用 `dw_base.utils.datetime_utils.get_date_range` 解析。
@@ -180,6 +178,6 @@ DolphinScheduler 工作流,每日 T+1 跑一次。失败重跑(INSERT OVERWR
 - [ ] 写 `dw_base/udf/business/spark_traces_udf.py`(封装 mask 为 Spark UDF)
 - [ ] 写历史 SQL `jobs/raw/usr/raw_usr_traces_his_o.sql` + 包装脚本 `.py`(hdfs put + 调 starter + 清 tmp)
 - [ ] 写增量 SQL `jobs/raw/usr/raw_usr_traces_apd_d.sql`(CREATE TEMP VIEW ES + INSERT OVERWRITE)
-- [ ] 历史 4 个 dt 文件按新方案重跑
+- [ ] 历史gz文件按新方案重跑
 - [ ] 上 DS 调度