|
@@ -1,10 +1,10 @@
|
|
|
#!/usr/bin/env /usr/bin/python3
|
|
#!/usr/bin/env /usr/bin/python3
|
|
|
# -*- coding:utf-8 -*-
|
|
# -*- coding:utf-8 -*-
|
|
|
"""
|
|
"""
|
|
|
-埋点 NDJSON.gz → raw.raw_usr_traces_apd_d 单日入仓。
|
|
|
|
|
|
|
+埋点 NDJSON.gz → test.raw_usr_traces_apd_d 单日入仓(冒烟测试期)。
|
|
|
|
|
|
|
|
CLI:
|
|
CLI:
|
|
|
- python3 jobs/raw/usr/raw_usr_traces_apd_d.py -dt YYYYMMDD
|
|
|
|
|
|
|
+ python3 tests/integration/tracking/raw_usr_traces_apd_d.py -dt YYYYMMDD
|
|
|
|
|
|
|
|
行为:
|
|
行为:
|
|
|
- 在 SOURCE_DIR 下找 traces-{YYYY-MM-DD}.json.gz(dt 转中划线格式拼文件名)
|
|
- 在 SOURCE_DIR 下找 traces-{YYYY-MM-DD}.json.gz(dt 转中划线格式拼文件名)
|
|
@@ -12,8 +12,9 @@ CLI:
|
|
|
- hdfs dfs -put -f 源 gz 到该分区目录(-f 覆盖,幂等可重跑)
|
|
- hdfs dfs -put -f 源 gz 到该分区目录(-f 覆盖,幂等可重跑)
|
|
|
- hive -e ALTER TABLE ... ADD IF NOT EXISTS PARTITION ... LOCATION ...
|
|
- hive -e ALTER TABLE ... ADD IF NOT EXISTS PARTITION ... LOCATION ...
|
|
|
|
|
|
|
|
-当前 SOURCE_DIR 写死成 m2 临时目录;上 DS 调度时把 SOURCE_DIR 改成正式产线路径,
|
|
|
|
|
-其余逻辑无需改动(CLI 已是单 dt 单文件语义,与调度天然契合)。
|
|
|
|
|
|
|
+当前 HIVE_DB='test'、HDFS_TBL_DIR 指 test.db;冒烟跑通后迁到 jobs/raw/usr/ 并把
|
|
|
|
|
+HIVE_DB / HDFS_TBL_DIR 改回 raw / raw.db。SOURCE_DIR 仍是 m2 临时目录,
|
|
|
|
|
+正式上调度时改成产线路径,CLI 不变。
|
|
|
"""
|
|
"""
|
|
|
import argparse
|
|
import argparse
|
|
|
import os
|
|
import os
|
|
@@ -22,8 +23,8 @@ import subprocess
|
|
|
import sys
|
|
import sys
|
|
|
|
|
|
|
|
SOURCE_DIR = '/data/upload/tracking/temp'
|
|
SOURCE_DIR = '/data/upload/tracking/temp'
|
|
|
-HDFS_TBL_DIR = '/user/hive/warehouse/raw.db/raw_usr_traces_apd_d'
|
|
|
|
|
-HIVE_DB = 'raw'
|
|
|
|
|
|
|
+HDFS_TBL_DIR = '/user/hive/warehouse/test.db/raw_usr_traces_apd_d'
|
|
|
|
|
+HIVE_DB = 'test'
|
|
|
HIVE_TBL = 'raw_usr_traces_apd_d'
|
|
HIVE_TBL = 'raw_usr_traces_apd_d'
|
|
|
DT_PATTERN = re.compile(r'^\d{8}$')
|
|
DT_PATTERN = re.compile(r'^\d{8}$')
|
|
|
|
|
|
|
@@ -48,7 +49,7 @@ def run(cmd):
|
|
|
def main():
|
|
def main():
|
|
|
parser = argparse.ArgumentParser(
|
|
parser = argparse.ArgumentParser(
|
|
|
prog='raw_usr_traces_apd_d',
|
|
prog='raw_usr_traces_apd_d',
|
|
|
- description='埋点 NDJSON.gz → raw.raw_usr_traces_apd_d 单日入仓',
|
|
|
|
|
|
|
+ description='埋点 NDJSON.gz → test.raw_usr_traces_apd_d 单日入仓',
|
|
|
)
|
|
)
|
|
|
parser.add_argument('-dt', required=True, metavar='YYYYMMDD',
|
|
parser.add_argument('-dt', required=True, metavar='YYYYMMDD',
|
|
|
help='分区日期,yyyymmdd 格式(如 20260409)')
|
|
help='分区日期,yyyymmdd 格式(如 20260409)')
|