tianyu.chu d3b2239647 chore(bin): 删 bin/common/ 整目录 + 2 个 datax sh 壳 + dw_base no-op cow_says 1 неделя назад
..
ddl 32af9c0a25 fix(tests): raw DDL 补 LOCATION(Spark 严格要求 EXTERNAL 带 LOCATION) 1 неделя назад
README.md d3b2239647 chore(bin): 删 bin/common/ 整目录 + 2 个 datax sh 壳 + dw_base no-op cow_says 1 неделя назад
app_user_cert_info.ini 8e4012bce8 refactor(tests): 冒烟 ini 切到 [mask] 声明式脱敏 + kb 同步 1 неделя назад

README.md

DataX hive-import 集成测试

端到端验证 PG public.app_user_cert_info → Hive test.raw_usr_app_user_cert_info_inc_d 同步。

前置条件

  • bigdata 用户、发布目录下执行(-random 生效的必要条件,见 dw_base/datax/worker.py select_worker 三连回退规则)
  • datasource/postgresql/dev-poyee-xiaoxu.ini 由运维维护(真实 PG 连接)
  • Hive test 数据库已存在
  • 项目代码 + datasource/ + /opt/datax 同步到 cdhmaster02 / cdhnode01 / cdhnode02 / cdhnode03
  • conf/workers.ini 配置当前集群 hostname + 权重

执行步骤

  1. 在 hive/beeline 执行 ddl/hive_raw.sql 建 raw 表
  2. 跑 DataX(新入口 datax-hive-import-starter):

    python3 bin/datax-hive-import-starter.py \
      -ini tests/integration/datax/hive_import/app_user_cert_info.ini \
      -start-date <昨日 yyyymmdd> -stop-date <今日 yyyymmdd> \
      -random
    

预期

  • 日志里 selected_worker 落到 cdhnode01 / cdhnode02 / cdhnode03 之一(权重 1:3:3:3,master 占 1/10)
  • test.raw_usr_app_user_cert_info_inc_d 新增 dt=<昨日> 分区
  • 该分区行数 = PG SELECT COUNT(*) FROM public.app_user_cert_info WHERE create_time >= '<昨日>' AND create_time < '<今日>'
  • Hive 记录里不存在 user_cert_data / cert_no / cert_real_name 三字段

回归用途

本套件作为两次回归的共同锚点:

  1. workers 外配 + 新集群 hostname 适配(本轮)
  2. datax-hive-import-starter 新入口开发完成后端到端等价

相关文件

  • ddl/hive_raw.sql:Hive 建表
  • app_user_cert_info.ini:DataX ini
  • PG 侧 DDL:由 DBA 维护,不入库