|
|
@@ -33,7 +33,8 @@ poyee-data-warehouse/ # 项目根目录(仓库名 = 部署名)
|
|
|
├── dw_base/ # 通用库层
|
|
|
│ ├── __init__.py # 全局初始化
|
|
|
│ ├── common/ # 常量、容器
|
|
|
-│ ├── spark/ # SparkSQL 核心 + UDF
|
|
|
+│ ├── spark/ # SparkSQL 核心
|
|
|
+│ ├── udf/ # Spark UDF 库(common + business)
|
|
|
│ ├── datax/ # DataX 配置生成引擎
|
|
|
│ ├── database/ # MongoDB/MySQL 工具
|
|
|
│ ├── scheduler/ # 调度辅助脚本
|
|
|
@@ -71,7 +72,7 @@ poyee-data-warehouse/ # 项目根目录(仓库名 = 部署名)
|
|
|
|------|-----------|------|
|
|
|
| 全局初始化 | `dw_base/__init__.py` | 环境检测、颜色常量、findspark 初始化、用户/权限判断 |
|
|
|
| SparkSQL 引擎 | `dw_base/spark/spark_sql.py` | SparkSession 管理、UDF 注册、SQL 执行、数据导出 |
|
|
|
-| UDF 库 | `dw_base/spark/udf/` | `common/` 通用 UDF(入口自动注册)+ `business/` 业务专用 UDF(按需 `ADD FILE`) |
|
|
|
+| UDF 库 | `dw_base/udf/` | `common/` 通用 UDF(入口自动注册)+ `business/` 业务专用 UDF(按需 `ADD FILE`) |
|
|
|
| DataX 引擎 | `dw_base/datax/` | ini 配置解析 → json 作业文件生成 |
|
|
|
| DataX 数据源 | `dw_base/datax/datasources/` | 各类数据源的连接参数抽象 |
|
|
|
| DataX 插件 | `dw_base/datax/plugins/` | Reader/Writer 工厂 + 各数据源实现 |
|
|
|
@@ -111,7 +112,7 @@ graph TB
|
|
|
subgraph dw_base [dw_base/ 通用库]
|
|
|
INIT_PY[__init__.py<br/>全局初始化]
|
|
|
SPARK_SQL[spark/spark_sql.py<br/>SparkSQL 引擎]
|
|
|
- UDF[spark/udf/<br/>UDF 库]
|
|
|
+ UDF[udf/<br/>UDF 库]
|
|
|
DATAX_ENGINE[datax/<br/>配置生成引擎]
|
|
|
DATASOURCES_CODE[datax/datasources/<br/>数据源抽象]
|
|
|
PLUGINS[datax/plugins/<br/>Reader/Writer]
|