# DataX hive-import 集成测试 端到端验证 PG `public.app_user_cert_info` → Hive `test.raw_usr_app_user_cert_info_inc_d` 同步。 ## 前置条件 - bigdata 用户、发布目录下执行(`-random` 生效的必要条件,见 `dw_base/datax/worker.py` select_worker 三连回退规则) - `datasource/postgresql/dev-poyee-xiaoxu.ini` 由运维维护(真实 PG 连接) - Hive `test` 数据库已存在 - 项目代码 + `datasource/` + `/opt/datax` 同步到 cdhmaster02 / cdhnode01 / cdhnode02 / cdhnode03 - `conf/workers.ini` 配置当前集群 hostname + 权重 ## 执行步骤 1. 在 hive/beeline 执行 `ddl/hive_raw.sql` 建 raw 表 2. 跑 DataX(新入口 `datax-hive-import-starter`): ```bash python3 bin/datax-hive-import-starter.py \ -ini tests/integration/datax/hive_import/app_user_cert_info.ini \ -start-date <昨日 yyyymmdd> -stop-date <今日 yyyymmdd> \ -random ``` ## 预期 - 日志里 `selected_worker` 落到 cdhnode01 / cdhnode02 / cdhnode03 之一(权重 1:3:3:3,master 占 1/10) - `test.raw_usr_app_user_cert_info_inc_d` 新增 `dt=<昨日>` 分区 - 该分区行数 = PG `SELECT COUNT(*) FROM public.app_user_cert_info WHERE create_time >= '<昨日>' AND create_time < '<今日>'` - Hive 记录里不存在 user_cert_data / cert_no / cert_real_name 三字段 ## 回归用途 本套件作为两次回归的共同锚点: 1. workers 外配 + 新集群 hostname 适配(本轮) 2. `datax-hive-import-starter` 新入口开发完成后端到端等价 ## 相关文件 - `ddl/hive_raw.sql`:Hive 建表 - `app_user_cert_info.ini`:DataX ini - PG 侧 DDL:由 DBA 维护,不入库