|
@@ -23,7 +23,7 @@ poyee-data-warehouse/ # 项目根目录(仓库名 = 部署名)
|
|
|
│ ├── dws/ # 汇总层计算 SQL
|
|
│ ├── dws/ # 汇总层计算 SQL
|
|
|
│ ├── tdm/ # 主题域模型层计算 SQL
|
|
│ ├── tdm/ # 主题域模型层计算 SQL
|
|
|
│ ├── ads/ # 应用层计算 SQL + 导出 ini
|
|
│ ├── ads/ # 应用层计算 SQL + 导出 ini
|
|
|
-│ └── archive/ # 已执行完的历史脚本归档
|
|
|
|
|
|
|
+│ └── archive/ # 已弃用的过期脚本归档
|
|
|
├── manual/ # 一次性脚本(禁止接入定时调度)
|
|
├── manual/ # 一次性脚本(禁止接入定时调度)
|
|
|
│ ├── ddl/ # 所有 DDL(初始 CREATE + 后续 ALTER),唯一来源;按 {layer}/{domain}/ 分子目录
|
|
│ ├── ddl/ # 所有 DDL(初始 CREATE + 后续 ALTER),唯一来源;按 {layer}/{domain}/ 分子目录
|
|
|
│ ├── backfill/ # 历史数据回刷
|
|
│ ├── backfill/ # 历史数据回刷
|
|
@@ -40,7 +40,7 @@ poyee-data-warehouse/ # 项目根目录(仓库名 = 部署名)
|
|
|
│ ├── database/ # MongoDB / MySQL 原生客户端封装
|
|
│ ├── database/ # MongoDB / MySQL 原生客户端封装
|
|
|
│ ├── utils/ # 通用工具(参数解析、日期、文件、日志、SQL 解析、字符串等)
|
|
│ ├── utils/ # 通用工具(参数解析、日期、文件、日志、SQL 解析、字符串等)
|
|
|
│ ├── io/ # (占位)I/O 边界:db / file / hdfs 跨进程读写
|
|
│ ├── io/ # (占位)I/O 边界:db / file / hdfs 跨进程读写
|
|
|
-│ ├── ops/ # (占位)湖内数据运维(小文件合并、分区清理、vacuum)
|
|
|
|
|
|
|
+│ ├── ops/ # (占位)仓内数据运维(小文件合并、分区清理、vacuum)
|
|
|
│ ├── dq/ # (占位)数据质量检查(schema drift、值域、关联、规模)
|
|
│ ├── dq/ # (占位)数据质量检查(schema drift、值域、关联、规模)
|
|
|
│ ├── pm/ # (占位)项目管理工具集成(TAPD / Jira API)
|
|
│ ├── pm/ # (占位)项目管理工具集成(TAPD / Jira API)
|
|
|
│ └── sync/ # (占位)外部文档同步(Docmost → kb/inbox)
|
|
│ └── sync/ # (占位)外部文档同步(Docmost → kb/inbox)
|
|
@@ -56,16 +56,23 @@ poyee-data-warehouse/ # 项目根目录(仓库名 = 部署名)
|
|
|
```
|
|
```
|
|
|
/home/bigdata/release/
|
|
/home/bigdata/release/
|
|
|
├── poyee-data-warehouse/ # 本项目部署目录
|
|
├── poyee-data-warehouse/ # 本项目部署目录
|
|
|
-└── datasource/ # 数据源连接配置(含账密,由运维管理)
|
|
|
|
|
- ├── mongo/ # 按数据库类型划分子目录
|
|
|
|
|
- ├── mysql/ # 每个子目录下存放 {实例名}.ini
|
|
|
|
|
|
|
+└── datasource/ # 数据源连接配置(含账密,由运维管理,不入仓库)
|
|
|
|
|
+ ├── postgresql/ # 按 {db_type}/{env}/{instance}.ini 三段式组织
|
|
|
|
|
+ │ ├── prod/
|
|
|
|
|
+ │ │ ├── hobby.ini # 生产 PG 实例举例
|
|
|
|
|
+ │ │ └── crm.ini
|
|
|
|
|
+ │ ├── test/
|
|
|
|
|
+ │ │ └── hobby.ini
|
|
|
|
|
+ │ └── dev/
|
|
|
|
|
+ │ └── hobby.ini
|
|
|
|
|
+ ├── mysql/ # 结构同上(prod / test / dev 三套)
|
|
|
|
|
+ ├── mongo/
|
|
|
├── hdfs/
|
|
├── hdfs/
|
|
|
├── clickhouse/
|
|
├── clickhouse/
|
|
|
├── elasticsearch/
|
|
├── elasticsearch/
|
|
|
├── kafka/
|
|
├── kafka/
|
|
|
├── redis/
|
|
├── redis/
|
|
|
- ├── hbase/
|
|
|
|
|
- └── postgresql/
|
|
|
|
|
|
|
+ └── hbase/
|
|
|
```
|
|
```
|
|
|
|
|
|
|
|
## 2. 核心模块职责
|
|
## 2. 核心模块职责
|
|
@@ -525,27 +532,6 @@ DataX Reader/Writer 建立连接
|
|
|
| L1(最高) | 命令行 `-env <name>` | 调试 / 跨环境临时切换 |
|
|
| L1(最高) | 命令行 `-env <name>` | 调试 / 跨环境临时切换 |
|
|
|
| L2 | `conf/env.sh` 里的 `DW_ENV` 默认值 | **入仓库**的一份配置,由开发者维护。默认值通常锁死为 `dev`(服务本地调试方便)。DolphinScheduler / 生产脚本总是命令行显式挂 `-env prod` 覆盖。不做任何"按用户/目录"的自动派生 |
|
|
| L2 | `conf/env.sh` 里的 `DW_ENV` 默认值 | **入仓库**的一份配置,由开发者维护。默认值通常锁死为 `dev`(服务本地调试方便)。DolphinScheduler / 生产脚本总是命令行显式挂 `-env prod` 覆盖。不做任何"按用户/目录"的自动派生 |
|
|
|
|
|
|
|
|
-**目录示例**:
|
|
|
|
|
-
|
|
|
|
|
-```
|
|
|
|
|
-datasource/ # 运维维护,不入仓库
|
|
|
|
|
-├── pg/
|
|
|
|
|
-│ ├── prod/
|
|
|
|
|
-│ │ ├── hobby.ini # 生产 PG 实例
|
|
|
|
|
-│ │ └── crm.ini
|
|
|
|
|
-│ ├── test/
|
|
|
|
|
-│ │ └── hobby.ini
|
|
|
|
|
-│ └── dev/
|
|
|
|
|
-│ └── hobby.ini
|
|
|
|
|
-├── mysql/
|
|
|
|
|
-│ ├── prod/
|
|
|
|
|
-│ └── dev/
|
|
|
|
|
-├── mongo/
|
|
|
|
|
-│ └── ...
|
|
|
|
|
-└── hdfs/
|
|
|
|
|
- └── ...
|
|
|
|
|
-```
|
|
|
|
|
-
|
|
|
|
|
**执行示例**:
|
|
**执行示例**:
|
|
|
|
|
|
|
|
```bash
|
|
```bash
|
|
@@ -559,8 +545,6 @@ bin/datax-single-job-starter.sh -gc jobs/raw/trd/raw_trd_order_pay_inc_d.ini -st
|
|
|
bin/datax-multiple-hive-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -env test -parallel
|
|
bin/datax-multiple-hive-job-starter.sh -gcd jobs/raw/trd -start-date 20260415 -env test -parallel
|
|
|
```
|
|
```
|
|
|
|
|
|
|
|
-**当前状态**:`-env` 参数、`conf/env.sh`、`datasource/` 的环境子目录**都尚未落地**,是目标态。改造清单见 `90-重构路线.md` §2.1。
|
|
|
|
|
-
|
|
|
|
|
## 7. 部署架构
|
|
## 7. 部署架构
|
|
|
|
|
|
|
|
```
|
|
```
|