|
|
пре 2 недеља | |
|---|---|---|
| .. | ||
| README.md | пре 2 недеља | |
| __init__.py | пре 2 недеља | |
对已存在数据做运维类操作。与 io/(读写 I/O)的区别:io/ 是数据进出,ops/ 是对湖内数据的后置处理。
典型场景:
DROP PARTITION)manual/)coalesce_hdfs_dir(path, target_size_mb) —— HDFS 目录小文件合并merge_small_files(table, partition) —— Hive 表分区 concatenate 压实drop_partitions(table, keep_days, exceptions=None) —— 按天保留清分区(元表驱动或参数化,见 kb/92 阶段 4 规划)refresh_table_stats(table) —— 刷新 Hive 表/分区统计io/hdfs/ 用于 HDFS 目录操作conf/alerter.ini 用于失败告警kb/11-数据资产.md 或 kb/20-数仓分层与建模.md 定义(待补)骨架(未启动)。后续搬入 / 重写的内容:
dw_base/utils/hdfs_dir_file_coalesce.py → ops/coalesce.py(B2 搬家 + 剥离老业务耦合)dw_base/utils/hdfs_merge_small_file.py → ops/merge.py(B2 同上)dw_base/scheduler/drop_partitions.py + drop_daily_full_snapshot_tbls.py(2026-04-20 已删),阶段 4 新版——元表驱动 + 参数化天数 + 例外白名单dw_base/utils/hive_file_merge.py(2026-04-20 已删),阶段 4 新版——通用化 HiveServer 连接 / 剥离 cts_*_ex/_im 表名假设见 kb/90-重构路线.md 聚簇 B + 阶段 4 重写任务。