| 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364 |
- # ============================================================
- # poyee-data-warehouse 依赖备份(老 tendata-warehouse-release 时期)
- #
- # 说明:本文件是 requirements.txt 在 2026-04-15 精简前的原始快照,
- # 仅作历史参照,**不用于安装**。新项目请用根目录 requirements.txt。
- #
- # 每一行后面的 [标记] 表示本次审计结论:
- # [KEEP] —— 仍为强依赖,已保留到新 requirements.txt
- # [DROP] —— 0 处引用或冗余,已从新 requirements.txt 移除
- # [LAZY] —— 只在即将清理的老业务代码里出现(customs/、老 scheduler 脚本、
- # oss2_util 等),待需要时按需 pip install;不写进 requirements
- # [STDLIB]—— Python 3 标准库自带,backport 包不应出现
- #
- # 详细审计过程见 kb/90-重构路线.md §7.1
- # ============================================================
- beautifulsoup4==4.11.1 # [DROP] 无引用
- bs4==0.0.1 # [DROP] 冗余,beautifulsoup4 已提供 bs4 模块
- configparser==5.2.0 # [STDLIB] Py3 自带,backport 不应安装
- cpca==0.5.5 # [DROP] 中文地址解析,无引用
- diff_match_patch==20200713 # [DROP] 无引用
- elasticsearch==7.10.1 # [LAZY] 仅老 scheduler 脚本使用
- findspark==2.0.1 # [KEEP] Spark 环境初始化
- Flask==1.1.4 # [DROP] 数仓项目不需要 web 框架
- hdfs==2.5.8 # [DROP] 无引用(走 hdfs dfs CLI 或 Spark)
- jieba==0.42.1 # [DROP] 中文分词,无引用
- jsonschema==3.2.0 # [DROP] 无引用
- lxml==4.6.3 # [DROP] 无引用
- matplotlib==3.3.4 # [DROP] 数仓不画图
- numpy==1.19.5 # [DROP] 无直接引用(pandas 会传递依赖)
- openpyxl==3.0.9 # [DROP] 老 excel 工具已边缘化
- openvino==2021.4.2 # [DROP] ML 推理引擎,无引用,体积巨大
- oss2==2.15.0 # [LAZY] 仅 tendata/oss/oss2_util.py,用途不明
- pandas==1.1.5 # [KEEP] 数据处理 + Excel 导入
- pandoc==2.1 # [DROP] 无引用
- phone==0.4.3 # [DROP] 无引用
- pygeohash==1.2.0 # [LAZY] 仅 spark_common_udf.py 1 处
- pyhocon==0.3.59 # [DROP] HOCON 配置格式,无引用
- pykafka==2.8.0 # [DROP] 无引用(Kafka 不由 Python 直接消费)
- pymongo==3.11.4 # [KEEP] MongoDB 客户端
- PyMySQL==0.10.1 # [KEEP] Doris/MySQL 客户端
- pypandoc==1.6.4 # [DROP] 无引用
- pypinyin==0.46.0 # [LAZY] 仅老 excel 工具使用
- PyQRCode==1.2.1 # [DROP] 无引用
- pyspark==2.4.0 # [CDH] 核心引擎,56 处引用;由 CDH 6.3.2 parcel 提供,不走 pip 安装,findspark 负责运行时定位
- python-dateutil==2.8.2 # [KEEP] 日期工具
- requests==2.25.1 # [KEEP] DS API 调用
- scikit-learn==0.24.2 # [DROP] 无引用
- scipy==1.5.4 # [DROP] 无引用
- sklearn==0.0 # [DROP] 已弃用 meta 包
- SQLAlchemy==1.3.24 # [DROP] DB 访问走原生驱动
- transformers==4.18.0 # [DROP] HuggingFace 大包,无引用
- wheel==0.37.0 # [KEEP] 构建工具
- xlrd==1.2.0 # [DROP] 无引用
- python-Levenshtein==0.21.1 # [DROP] 曾作为 fuzzywuzzy 加速后端
- fuzzywuzzy==0.18.0 # [LAZY] 仅 customs/similarity.py UDF(待删)
- cleanco==2.2 # [DROP] 无引用
- PyHive~=0.7.0 # [LAZY] 仅老 get_oldmongo_* / mg2es 脚本
- PyYAML~=6.0.1 # [KEEP] DS 配置读取
- redis~=4.3.6 # [LAZY] 仅 mg2es/redis_operator.py
- cryptography~=40.0.2 # [LAZY] 仅 ent_interface_dingtalk*.py
- pytest~=7.0.1 # [KEEP] 测试框架
- prettytable~=2.5.0 # [DROP] 无引用
- impyla~=0.19.0 # [DROP] 无引用
|