|
|
@@ -875,7 +875,7 @@ raw 层的 `jobs/` 有两类主要任务,根据源数据形态选择:
|
|
|
| 从 MongoDB / PG / MySQL 等结构化源库同步 | `.ini`(DataX 配置) | `bin/datax-single-job-starter.sh` |
|
|
|
| 从本地 / 外部 CSV 文件导入 | `.sql`(含 `USING csv` 临时视图 + `INSERT OVERWRITE`) | `bin/csv-to-hdfs-starter.py`(阶段 1 实现) |
|
|
|
|
|
|
-**raw 层数据类型约定**:所有字段一律 `STRING`,类型转换、空值处理、脏数据识别全部**下推到 ods 层**。这样 raw 的同步永远不会因为类型不符而失败,保证"链路出入口"简单稳定。
|
|
|
+**raw 层数据类型约定**:全字段 `STRING`,类型转换与脏数据识别下推到 ods 层。契约详见 `20-数仓分层与建模.md` §8.1。
|
|
|
|
|
|
**CSV 导入流程**:
|
|
|
|