# ============================================================ # poyee-data-warehouse 依赖备份(老 tendata-warehouse-release 时期) # # 说明:本文件是 requirements.txt 在 2026-04-15 精简前的原始快照, # 仅作历史参照,**不用于安装**。新项目请用根目录 requirements.txt。 # # 每一行后面的 [标记] 表示本次审计结论: # [KEEP] —— 仍为强依赖,已保留到新 requirements.txt # [DROP] —— 0 处引用或冗余,已从新 requirements.txt 移除 # [LAZY] —— 只在即将清理的老业务代码里出现(customs/、老 scheduler 脚本、 # oss2_util 等),待需要时按需 pip install;不写进 requirements # [STDLIB]—— Python 3 标准库自带,backport 包不应出现 # # 详细审计过程见 kb/90-重构路线.md §7.1 # ============================================================ beautifulsoup4==4.11.1 # [DROP] 无引用 bs4==0.0.1 # [DROP] 冗余,beautifulsoup4 已提供 bs4 模块 configparser==5.2.0 # [STDLIB] Py3 自带,backport 不应安装 cpca==0.5.5 # [DROP] 中文地址解析,无引用 diff_match_patch==20200713 # [DROP] 无引用 elasticsearch==7.10.1 # [LAZY] 仅老 scheduler 脚本使用 findspark==2.0.1 # [KEEP] Spark 环境初始化 Flask==1.1.4 # [DROP] 数仓项目不需要 web 框架 hdfs==2.5.8 # [DROP] 无引用(走 hdfs dfs CLI 或 Spark) jieba==0.42.1 # [DROP] 中文分词,无引用 jsonschema==3.2.0 # [DROP] 无引用 lxml==4.6.3 # [DROP] 无引用 matplotlib==3.3.4 # [DROP] 数仓不画图 numpy==1.19.5 # [DROP] 无直接引用(pandas 会传递依赖) openpyxl==3.0.9 # [DROP] 老 excel 工具已边缘化 openvino==2021.4.2 # [DROP] ML 推理引擎,无引用,体积巨大 oss2==2.15.0 # [LAZY] 仅 tendata/oss/oss2_util.py,用途不明 pandas==1.1.5 # [KEEP] 数据处理 + Excel 导入 pandoc==2.1 # [DROP] 无引用 phone==0.4.3 # [DROP] 无引用 pygeohash==1.2.0 # [LAZY] 仅 spark_common_udf.py 1 处 pyhocon==0.3.59 # [DROP] HOCON 配置格式,无引用 pykafka==2.8.0 # [DROP] 无引用(Kafka 不由 Python 直接消费) pymongo==3.11.4 # [KEEP] MongoDB 客户端 PyMySQL==0.10.1 # [KEEP] Doris/MySQL 客户端 pypandoc==1.6.4 # [DROP] 无引用 pypinyin==0.46.0 # [LAZY] 仅老 excel 工具使用 PyQRCode==1.2.1 # [DROP] 无引用 pyspark==2.4.0 # [CDH] 核心引擎,56 处引用;由 CDH 6.3.2 parcel 提供,不走 pip 安装,findspark 负责运行时定位 python-dateutil==2.8.2 # [KEEP] 日期工具 requests==2.25.1 # [KEEP] DS API 调用 scikit-learn==0.24.2 # [DROP] 无引用 scipy==1.5.4 # [DROP] 无引用 sklearn==0.0 # [DROP] 已弃用 meta 包 SQLAlchemy==1.3.24 # [DROP] DB 访问走原生驱动 transformers==4.18.0 # [DROP] HuggingFace 大包,无引用 wheel==0.37.0 # [KEEP] 构建工具 xlrd==1.2.0 # [DROP] 无引用 python-Levenshtein==0.21.1 # [DROP] 曾作为 fuzzywuzzy 加速后端 fuzzywuzzy==0.18.0 # [LAZY] 仅 customs/similarity.py UDF(待删) cleanco==2.2 # [DROP] 无引用 PyHive~=0.7.0 # [LAZY] 仅老 get_oldmongo_* / mg2es 脚本 PyYAML~=6.0.1 # [KEEP] DS 配置读取 redis~=4.3.6 # [LAZY] 仅 mg2es/redis_operator.py cryptography~=40.0.2 # [LAZY] 仅 ent_interface_dingtalk*.py pytest~=7.0.1 # [KEEP] 测试框架 prettytable~=2.5.0 # [DROP] 无引用 impyla~=0.19.0 # [DROP] 无引用