raw_usr_traces_apd_d.sql 988 B

123456789101112131415161718192021
  1. -- 作者:tianyu.chu
  2. -- 日期:2026-06-10
  3. -- 工单:(无)
  4. -- 目的:埋点 gz(已 hdfs put 到临时目录)→ 解析 _source、脱敏 properties → 写 raw 薄表(es_id / event_name / 脱敏后 _source JSON)
  5. -- 状态:[待执行]
  6. -- 备注:gz 由包装脚本 jobs/raw/usr/raw_usr_traces_apd_d.py 逐日 put 到 /tmp/raw_usr_traces/${dt}/;
  7. -- mask_source UDF = dw_base/udf/business/spark_traces_udf.py(-u 加载);脱敏配置经 ADD FILE 分发;
  8. -- es_id/event_name 不敏感、原生 get_json_object 取;dt 静态 = 文件日
  9. ADD FILE conf/tracking-mask.ini;
  10. CREATE OR REPLACE TEMPORARY VIEW traces_gz_text
  11. USING text
  12. OPTIONS (path '/tmp/raw_usr_traces/${dt}/');
  13. INSERT OVERWRITE TABLE raw.raw_usr_traces_apd_d PARTITION (dt = '${dt}')
  14. SELECT
  15. get_json_object(value, '$._id') AS es_id,
  16. get_json_object(value, '$._source.event') AS event_name,
  17. mask_source(value) AS raw_json
  18. FROM traces_gz_text;