vor 1 Monat · f0346604b9
--- a/Test/test02.py
+++ b/Test/test02.py
@@ -1,67 +1,15 @@
 
				-import os
			
 
				-from langgraph.graph import StateGraph, START, END
			
 
				-from langgraph.graph.message import add_messages
			
 
				-from langchain_openai import ChatOpenAI
			
 
				+from ultralytics import YOLO
			
 
				 
			
 
				-# --------------- 基本配置 ----------------
			
 
				+# Load a model
			
 
				+model = YOLO(r"C:\Code\ML\Model\yolo26n-pose.pt")  # load an official model
			
 
				 
			
 
				-# 1) 设置 API Key & Base URL
			
 
				-# 假设你已经通过 DeepSeek QPI 获取到了兼容 OpenAI 的 key & endpoint
			
 
				-os.environ["OPENAI_API_KEY"] = "YOUR_QPI_API_KEY"
			
 
				-# 如果 DeepSeek QPI 需要自定义 Base URL，请设置：
			
 
				-# os.environ["OPENAI_API_BASE"] = "https://your-provider-url/v1"
			
 
				+# Predict with the model
			
 
				+results = model("https://ultralytics.com/images/bus.jpg")  # predict on an image
			
 
				 
			
 
				-# 2) 初始化 LLM
			
 
				-# deepseek/deepseek-r1 通常在 QPI/OpenRouter 兼容 API 下可调用
			
 
				-llm = ChatOpenAI(model="deepseek/deepseek-r1:latest", temperature=0.7)
			
 
				+# Access the results
			
 
				+for result in results:
			
 
				+    xy = result.keypoints.xy  # x and y coordinates
			
 
				+    xyn = result.keypoints.xyn  # normalized
			
 
				+    kpts = result.keypoints.data  # x, y, visibility (if available)
			
 
				 
			
 
				-
			
 
				-# --------------- LangGraph 节点 ----------------
			
 
				-
			
 
				-def call_deepseek(state):
			
 
				-    """
			
 
				-    一个简单的函数节点，它用 LLM 理解 state["messages"]
			
 
				-    并返回下一步 messages
			
 
				-    """
			
 
				-    user_msgs = state["messages"]
			
 
				-
			
 
				-    # 调用 LLM
			
 
				-    response = llm(
			
 
				-        # LangChain 格式要求 messages 是 dict 列表
			
 
				-        messages=user_msgs
			
 
				-    )
			
 
				-
			
 
				-    # 获取模型输出的 text
			
 
				-    ai_msg = response["choices"][0]["message"]
			
 
				-
			
 
				-    # 将 AI 的回复追加回状态
			
 
				-    return {"messages": user_msgs + [ai_msg]}
			
 
				-
			
 
				-
			
 
				-# --------------- 构建状态图 ----------------
			
 
				-
			
 
				-# 状态类型使用 LangChain 的消息状态对象
			
 
				-from langgraph.graph import MessagesState
			
 
				-
			
 
				-graph = StateGraph(MessagesState)
			
 
				-
			
 
				-# 添加节点到图
			
 
				-graph.add_node(call_deepseek)
			
 
				-
			
 
				-# 定义边 (Start → 我们的 LLM 节点 → End)
			
 
				-graph.add_edge(START, "call_deepseek")
			
 
				-graph.add_edge("call_deepseek", END)
			
 
				-
			
 
				-# 编译图
			
 
				-compiled_graph = graph.compile()
			
 
				-
			
 
				-# --------------- 调用运行 ----------------
			
 
				-
			
 
				-result = compiled_graph.invoke({
			
 
				-    "messages": [
			
 
				-        {"role": "user", "content": "你好，帮我写一段 LangGraph 入门示例说明"}
			
 
				-    ]
			
 
				-})
			
 
				-
			
 
				-# 输出最终状态
			
 
				-print(result["messages"][-1]["content"])
			
 
				+print()
			
--- a/app/services/video_service.py
+++ b/app/services/video_service.py
@@ -228,6 +228,70 @@ class VideoService:
 
				 
			
 
				         return min(score, 1.0)
			
 
				 
			
 
				+    def _batch_analyze_segmentation(self, frames: list[Any]) -> list[dict[str, Any]]:
			
 
				+        """批量对多张图像进行语义分割，极大提高 GPU 利用率"""
			
 
				+        if not frames or self._ensure_segmentation_model() is None:
			
 
				+            return [{"segmentation_used": False, "has_card": False, "has_hand": False,
			
 
				+                     "card_area_ratio": 0.0, "hand_area_ratio": 0.0, "card_bbox": None}] * len(frames)
			
 
				+
			
 
				+        try:
			
 
				+            pil_images = [self._seg_pil_image.fromarray(cv2.cvtColor(f, cv2.COLOR_BGR2RGB)) for f in frames]
			
 
				+            device = next(self._seg_model.parameters()).device
			
 
				+            results = []
			
 
				+
			
 
				+            # 分块批处理，防止显存 OOM（比如 16 帧一个 Batch）
			
 
				+            batch_size = 16
			
 
				+            for i in range(0, len(pil_images), batch_size):
			
 
				+                batch_imgs = pil_images[i: i + batch_size]
			
 
				+
			
 
				+                inputs = self._seg_processor(images=batch_imgs, return_tensors="pt").to(device)
			
 
				+
			
 
				+                with self._seg_torch.no_grad():
			
 
				+                    outputs = self._seg_model(**inputs)
			
 
				+
			
 
				+                logits = outputs.logits
			
 
				+
			
 
				+                # 批量上采样并取 argmax
			
 
				+                preds = self._seg_torch.nn.functional.interpolate(
			
 
				+                    logits,
			
 
				+                    size=batch_imgs[0].size[::-1],  # 假设所有帧分辨率一样
			
 
				+                    mode="bilinear",
			
 
				+                    align_corners=False,
			
 
				+                ).argmax(dim=1).cpu().numpy()
			
 
				+
			
 
				+                # 解析每张图的 Mask
			
 
				+                for pred in preds:
			
 
				+                    card_mask = pred == settings.VIDEO_CARD_LABEL_ID
			
 
				+                    hand_mask = pred == settings.VIDEO_HAND_LABEL_ID
			
 
				+
			
 
				+                    card_area = float(card_mask.mean()) if card_mask.size else 0.0
			
 
				+                    hand_area = float(hand_mask.mean()) if hand_mask.size else 0.0
			
 
				+
			
 
				+                    card_bbox = self._largest_bbox(card_mask)
			
 
				+                    hand_bbox = self._largest_bbox(hand_mask)
			
 
				+                    focus_bbox = card_bbox if card_bbox is not None else hand_bbox
			
 
				+
			
 
				+                    results.append({
			
 
				+                        "segmentation_used": True,
			
 
				+                        "has_card": card_area >= settings.VIDEO_MIN_CARD_AREA_RATIO,
			
 
				+                        "has_hand": hand_area >= settings.VIDEO_MIN_HAND_AREA_RATIO,
			
 
				+                        "card_area_ratio": card_area,
			
 
				+                        "hand_area_ratio": hand_area,
			
 
				+                        "card_bbox": focus_bbox,
			
 
				+                    })
			
 
				+
			
 
				+                # 及时清理这批显存
			
 
				+                del inputs, outputs, logits, preds
			
 
				+                if self._seg_torch.cuda.is_available():
			
 
				+                    self._seg_torch.cuda.empty_cache()
			
 
				+
			
 
				+            return results
			
 
				+
			
 
				+        except Exception as exc:
			
 
				+            logger.warning(f"Batch segmentation failed, fallback: {exc}")
			
 
				+            return [{"segmentation_used": False, "has_card": False, "has_hand": False,
			
 
				+                     "card_area_ratio": 0.0, "hand_area_ratio": 0.0, "card_bbox": None}] * len(frames)
			
 
				+
			
 
				     def _analyze_segmentation(self, frame) -> dict[str, Any]:
			
 
				         """对单帧图像进行语义分割分析，寻找卡片和手的区域"""
			
 
				         if self._ensure_segmentation_model() is None:
			
@@ -346,6 +410,9 @@ class VideoService:
 
				     ) -> list[FrameCandidate]:
			
 
				         """在指定时间窗口内滑动，按步长收集视频帧作为候选"""
			
 
				         candidates: list[FrameCandidate] = []
			
 
				+        raw_frames = []
			
 
				+        time_ms_list = []
			
 
				+
			
 
				         analysis_stride = self._analysis_stride(fps)
			
 
				 
			
 
				         # 预估最大读取次数，防止视频结尾卡死死循环
			
@@ -356,7 +423,8 @@ class VideoService:
 
				 
			
 
				         read_count = 0
			
 
				         while read_count < max_reads:
			
 
				-            ret, frame = cap.read()
			
 
				+            # 仅仅抓取下一帧的数据流，不进行耗时的图像解码
			
 
				+            ret = cap.grab()
			
 
				             if not ret:
			
 
				                 break
			
 
				 
			
@@ -364,12 +432,41 @@ class VideoService:
 
				             if current_time_ms > end_time_ms:
			
 
				                 break
			
 
				 
			
 
				-            # 按计算好的步长 (analysis_stride) 进行抽帧分析
			
 
				+            # 到达步长，才真正解码成图像矩阵
			
 
				             if read_count % analysis_stride == 0:
			
 
				-                candidates.append(self._build_candidate(frame, int(current_time_ms), target_time_ms))
			
 
				+                ret, frame = cap.retrieve()
			
 
				+                if ret:
			
 
				+                    raw_frames.append(frame.copy())
			
 
				+                    time_ms_list.append(current_time_ms)
			
 
				 
			
 
				             read_count += 1
			
 
				 
			
 
				+        if not raw_frames:
			
 
				+            return []
			
 
				+
			
 
				+        # 1. 批量过分割模型
			
 
				+        seg_results = self._batch_analyze_segmentation(raw_frames)
			
 
				+
			
 
				+        # 2. 遍历组装 Candidate 并计算清晰度
			
 
				+        for frame, time_ms, seg_res in zip(raw_frames, time_ms_list, seg_results):
			
 
				+            # 切割关注区域算清晰度
			
 
				+            focus_region = self._focus_region(frame, seg_res["card_bbox"])
			
 
				+            sharpness = self.get_laplacian_sharpness(focus_region)
			
 
				+
			
 
				+            presence_score = self._compute_presence_score(
			
 
				+                seg_res["segmentation_used"], seg_res["has_card"],
			
 
				+                seg_res["has_hand"], seg_res["card_area_ratio"], seg_res["hand_area_ratio"]
			
 
				+            )
			
 
				+
			
 
				+            candidates.append(FrameCandidate(
			
 
				+                frame=frame,
			
 
				+                time_ms=int(time_ms),
			
 
				+                sharpness=sharpness,
			
 
				+                time_weight=self.calculate_weight(time_ms, target_time_ms),
			
 
				+                presence_score=presence_score,
			
 
				+                **seg_res  # 解包填入 has_card, card_bbox 等属性
			
 
				+            ))
			
 
				+
			
 
				         return candidates
			
 
				 
			
 
				     def _assign_dwell_scores(self, candidates: list[FrameCandidate]) -> None:
			
@@ -793,4 +890,4 @@ class VideoService:
 
				             f"Frame capture finished. saved={success_count}, "
			
 
				             f"filtered={filtered_count}, total={len(cards)}"
			
 
				         )
			
 
				-        return output_list
			
 
				+        return output_list