requirements.txt.bak 4.0 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364
  1. # ============================================================
  2. # poyee-data-warehouse 依赖备份(老 tendata-warehouse-release 时期)
  3. #
  4. # 说明:本文件是 requirements.txt 在 2026-04-15 精简前的原始快照,
  5. # 仅作历史参照,**不用于安装**。新项目请用根目录 requirements.txt。
  6. #
  7. # 每一行后面的 [标记] 表示本次审计结论:
  8. # [KEEP] —— 仍为强依赖,已保留到新 requirements.txt
  9. # [DROP] —— 0 处引用或冗余,已从新 requirements.txt 移除
  10. # [LAZY] —— 只在即将清理的老业务代码里出现(customs/、老 scheduler 脚本、
  11. # oss2_util 等),待需要时按需 pip install;不写进 requirements
  12. # [STDLIB]—— Python 3 标准库自带,backport 包不应出现
  13. #
  14. # 详细审计过程见 kb/90-重构路线.md §7.1
  15. # ============================================================
  16. beautifulsoup4==4.11.1 # [DROP] 无引用
  17. bs4==0.0.1 # [DROP] 冗余,beautifulsoup4 已提供 bs4 模块
  18. configparser==5.2.0 # [STDLIB] Py3 自带,backport 不应安装
  19. cpca==0.5.5 # [DROP] 中文地址解析,无引用
  20. diff_match_patch==20200713 # [DROP] 无引用
  21. elasticsearch==7.10.1 # [LAZY] 仅老 scheduler 脚本使用
  22. findspark==2.0.1 # [KEEP] Spark 环境初始化
  23. Flask==1.1.4 # [DROP] 数仓项目不需要 web 框架
  24. hdfs==2.5.8 # [DROP] 无引用(走 hdfs dfs CLI 或 Spark)
  25. jieba==0.42.1 # [DROP] 中文分词,无引用
  26. jsonschema==3.2.0 # [DROP] 无引用
  27. lxml==4.6.3 # [DROP] 无引用
  28. matplotlib==3.3.4 # [DROP] 数仓不画图
  29. numpy==1.19.5 # [DROP] 无直接引用(pandas 会传递依赖)
  30. openpyxl==3.0.9 # [DROP] 老 excel 工具已边缘化
  31. openvino==2021.4.2 # [DROP] ML 推理引擎,无引用,体积巨大
  32. oss2==2.15.0 # [LAZY] 仅 tendata/oss/oss2_util.py,用途不明
  33. pandas==1.1.5 # [KEEP] 数据处理 + Excel 导入
  34. pandoc==2.1 # [DROP] 无引用
  35. phone==0.4.3 # [DROP] 无引用
  36. pygeohash==1.2.0 # [LAZY] 仅 spark_common_udf.py 1 处
  37. pyhocon==0.3.59 # [DROP] HOCON 配置格式,无引用
  38. pykafka==2.8.0 # [DROP] 无引用(Kafka 不由 Python 直接消费)
  39. pymongo==3.11.4 # [KEEP] MongoDB 客户端
  40. PyMySQL==0.10.1 # [KEEP] Doris/MySQL 客户端
  41. pypandoc==1.6.4 # [DROP] 无引用
  42. pypinyin==0.46.0 # [LAZY] 仅老 excel 工具使用
  43. PyQRCode==1.2.1 # [DROP] 无引用
  44. pyspark==2.4.0 # [CDH] 核心引擎,56 处引用;由 CDH 6.3.2 parcel 提供,不走 pip 安装,findspark 负责运行时定位
  45. python-dateutil==2.8.2 # [KEEP] 日期工具
  46. requests==2.25.1 # [KEEP] DS API 调用
  47. scikit-learn==0.24.2 # [DROP] 无引用
  48. scipy==1.5.4 # [DROP] 无引用
  49. sklearn==0.0 # [DROP] 已弃用 meta 包
  50. SQLAlchemy==1.3.24 # [DROP] DB 访问走原生驱动
  51. transformers==4.18.0 # [DROP] HuggingFace 大包,无引用
  52. wheel==0.37.0 # [KEEP] 构建工具
  53. xlrd==1.2.0 # [DROP] 无引用
  54. python-Levenshtein==0.21.1 # [DROP] 曾作为 fuzzywuzzy 加速后端
  55. fuzzywuzzy==0.18.0 # [LAZY] 仅 customs/similarity.py UDF(待删)
  56. cleanco==2.2 # [DROP] 无引用
  57. PyHive~=0.7.0 # [LAZY] 仅老 get_oldmongo_* / mg2es 脚本
  58. PyYAML~=6.0.1 # [KEEP] DS 配置读取
  59. redis~=4.3.6 # [LAZY] 仅 mg2es/redis_operator.py
  60. cryptography~=40.0.2 # [LAZY] 仅 ent_interface_dingtalk*.py
  61. pytest~=7.0.1 # [KEEP] 测试框架
  62. prettytable~=2.5.0 # [DROP] 无引用
  63. impyla~=0.19.0 # [DROP] 无引用