# 数据资产盘点 > 本文档记录 `poyee-data-warehouse` 数据仓库接入或待接入的所有数据来源,用于入仓优先级排期与数据源管理。 ## 1. 业务数据(线上生产库) **来源**:Hobby Stocks APP + Web 端产生的所有业务数据。 | 库 | 数据时间范围 | 当前存储 | 备注 | 是否入仓 | |----|----|----|----|----| | 业务生产库 | 2024 年至今 + 部分未完结数据 | 线上 PostgreSQL | 已确认:发版升级(数据结构、表结构)向前兼容旧数据 | 待填 | | 离线存档数据 | 2022—2023 年 | 硬盘(离线) | 需要手动恢复 | 待填 | **入仓前的check list:** - 入仓前统计时间维度的数据条数,确认可信数据时间范围 - 每张表确定是否存在物理删除动作;如有,推行软删除(目前有些表使用的是del_flag) - 每张表确定是否有可靠的增量同步字段,如没有,推行create_time/update_time ## 2. 埋点数据 **来源**:Hobby Stocks APP 用户触发的埋点,基于**神策 SDK** 上报至 ES 服务器。 **埋点规范**:见 `3.数据仓库/3.1重要文档/3.1.1用户行为埋点.md` | 数据描述 | 时间范围 | 当前存储 | 备注 | |----|----|----|----| | 埋点 T+1 备份 | 2025-09 至今 | 硬盘 | 离线备份 | | ES 在线数据 | 保守估算近 3 天 | ES 服务器 | 在线热数据 | ## 3. 爬虫数据 **来源**:爬取国内外球星卡网站数据,覆盖二级市场与竞品平台。 ### 3.1 国外站点 | 网站 | 业务起始时间 | 数据量(条) | 备注 | |----|----|----:|----| | `alt` | 2024-02-26 | 138,005 | | | `blowout` | 1983-10-25 | 2,006,095 | | | `clove` | 2023-08-23 | 106,551 | | | `dacardworld` | 无 | 6,027,495 | **已停止爬取** | | `courtyard` | 2025-11-04 | 1,538,468 | | | `ebay` | 2019-03-18 | **137,608,762** | 最大数据源 | | `fanatics` | 2023-08-15 | 14,263,375 | | | `goldin` | 2021-11-14 | 419,840 | | | `hoopi` | 2024-06-28 | 248,812 | | | `steelcity` | 无 | 3,484,327 | **已停止爬取** | | `urbox` | 2025-01-07 | 742 | **已停止爬取** | | `voggt` | 2024-03-15 | 36,226 | | | `waxstat` | 无 | 49,951 | **已停止爬取** | | `whatnot` | 2024-09-22 | **131,381,385** | 第二大数据源 | | `heritage` | 2004-05-02 | 77,916 | | ### 3.2 国内站点 | 网站 | 业务起始时间 | 数据量(条) | 备注 | |----|----|----:|----| | 卡淘 | 2015-12-28 | 40,836,802 | | | 首藏 | 2024-02-01 | 505,154 | 包含拼团失败/测试拼团 | | 卡玩 | 2025-03-31 | 65,502 | | | 星潮 | 2025-07-14 | 107,886 | | | 星卡 | 2025-10-24 | 132,495 | | | 悦卡 | 2025-12-19 | 199,645 | | | 千岛 | 2021-06-10 | **72,630,237** | 第三大数据源 | **规模汇总:** - 活跃爬虫源:约 17 个 - 已停止:4 个(`dacardworld` / `steelcity` / `urbox` / `waxstat`) - Top 3 数据量源:ebay(1.37 亿) / whatnot(1.31 亿) / 千岛(7263 万) ## 4. 采购数据 暂无。 ## 5. 入仓优先级 p0 业务库增量数据(调度) p0 业务库基于时间基线的存量数据(一次性) p0 埋点库增量数据(调度) p0 埋点库基于时间基线的存量数据(一次性) p1 业务库离线历史数据 (一次性,需做数据融合) p1 埋点库基于时间基线的存量数据(一次性) p2 爬虫数据(极脏,需做数据探查和清洗方案) ## 6. 相关文档 - [数仓分层与建模](20-数仓分层与建模.md) — 数据同步策略 - `3.数据仓库/3.1重要文档/3.1.1用户行为埋点.md` — 埋点规范原始文档