tianyu.chu 6936460ac3 chore: 新增 io/ops/pm/dq/sync/tests 占位骨架;删 bin/excel_to_hive.py;publish.sh 挪入 bin 2 周之前
..
README.md 6936460ac3 chore: 新增 io/ops/pm/dq/sync/tests 占位骨架;删 bin/excel_to_hive.py;publish.sh 挪入 bin 2 周之前
__init__.py 6936460ac3 chore: 新增 io/ops/pm/dq/sync/tests 占位骨架;删 bin/excel_to_hive.py;publish.sh 挪入 bin 2 周之前

README.md

dw_base/sync — 外部文档同步

职责

周期性从外部文档系统(公司内 Docmost 优先;后续可扩 Confluence / Notion / 飞书知识库)拉取 page → 落到 kb/inbox/ → 供 AI 整理进正式 kb/ 分类文档。

对外接口概要(规划中)

  • docmost.pull_pages(space, since_ts=None) -> list[Path]
    • 拉取指定 space 的 page,落到 kb/inbox/{yyyymmdd}/<page_id>_<slug>.md
    • since_ts 增量拉取游标(避免重复)
  • docmost.auth(token) —— API 鉴权
  • 入口脚本 bin/docs-sync.py本批不建,后续实现时再加)

约定

  • 落盘路径:kb/inbox/{yyyymmdd}/<page_id>_<slug>.md
    • 日期子目录防止 inbox 根目录被塞爆
    • 文件名带 page_id 方便增量覆盖同一页的后续更新
  • 拉回的是草稿不直接进 kb/ 正式分类,必须走"AI 整理 → 人工审 → 归入 kb/{NN}-xxx.md"流程

依赖

  • requests(调 Docmost API)
  • configparser(读 conf/sync/docmost.ini 非敏感配置:base URL、space id 等)
  • 账密:Docmost API token 走 datasource/sync/docmost/<env>.ini(高敏不入库)

状态

骨架(未启动)。待确认:

  • Docmost API 鉴权方式(token / OAuth?)
  • 是否支持 webhook(事件驱动增量同步,避免轮询)
  • 多 space 支持优先级

kb/90-重构路线.md 聚簇 D。