jp_pokemon_card_spider222.py 14 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324
  1. # -*- coding: utf-8 -*-
  2. # Author : Charley
  3. # Python : 3.10.8
  4. # Date : 2025/8/19 15:58
  5. import re
  6. import json
  7. import inspect
  8. import requests
  9. import user_agent
  10. from loguru import logger
  11. from parsel import Selector
  12. from mysql_pool import MySQLConnectionPool
  13. from tenacity import retry, stop_after_attempt, wait_fixed
  14. # logger.remove()
  15. # logger.add("./logs/{time:YYYYMMDD}.log", encoding='utf-8', rotation="00:00",
  16. # format="[{time:YYYY-MM-DD HH:mm:ss.SSS}] {level} {message}",
  17. # level="DEBUG", retention="7 day")
  18. crawler_language = "jp"
  19. pokemon_products = {
  20. "M-P": "ポケモンカードゲーム MEGAプロモカード",
  21. "SV-P": "ポケモンカードゲームスカーレット&バイオレット プロモカード",
  22. "950": "ハイクラスパック 「MEGAドリームex」",
  23. "949": "拡張パック「インフェルノX」",
  24. "947": "スターターセットMEGA メガゲンガーex",
  25. "948": "スターターセットMEGA メガディアンシーex",
  26. "946": "プレミアムトレーナーボックスMEGA",
  27. "944": "拡張パック「メガブレイブ」",
  28. "945": "拡張パック「メガシンフォニア」",
  29. "942": "拡張パック「ブラックボルト」",
  30. "943": "拡張パック「ホワイトフレア」",
  31. "941": "拡張パック「ロケット団の栄光」",
  32. "940": "強化拡張パック「熱風のアリーナ」",
  33. "939": "スターターセットex ダイゴのダンバル&メタグロスex",
  34. "938": "スターターセットex マリィのモルペコ&オーロンゲex",
  35. "935": "拡張パック「バトルパートナーズ」",
  36. "936": "デッキビルドBOX「バトルパートナーズ」",
  37. "934": "ハイクラスパック「テラスタルフェスex」",
  38. "925": "スタートデッキGenerations ピカチュウex・カビゴンex",
  39. "926": "スタートデッキGenerations ルギアex・バンギラスex",
  40. "927": "スタートデッキGenerations カイオーガex・バシャーモex",
  41. "928": "スタートデッキGenerations ディアルガex・ルカリオex",
  42. "929": "スタートデッキGenerations レシラムex・モロバレルex",
  43. "930": "スタートデッキGenerations ゼルネアスex・オンバーンex",
  44. "931": "スタートデッキGenerations カプ・コケコex・ミミッキュex",
  45. "932": "スタートデッキGenerations ザシアンex・マホイップex",
  46. "933": "スタートデッキGenerations コライドンex・パルデアドオーex",
  47. "923": "拡張パック「超電ブレイカー」",
  48. "922": "強化拡張パック「楽園ドラゴーナ」",
  49. "921": "スターターセット テラスタイプ:ステラ ニンフィアex",
  50. "920": "スターターセット テラスタイプ:ステラ ソウブレイズex",
  51. "918": "拡張パック「ステラミラクル」",
  52. "919": "デッキビルドBOX ステラミラクル",
  53. "917": "強化拡張パック「ナイトワンダラー」",
  54. "10917": "スペシャルジャンボカードセット オーガポン",
  55. "915": "バトルマスターデッキテラスタルリザードンex",
  56. "916": "バトルマスターデッキパオジアンex",
  57. "914": "拡張パック「変幻の仮面」",
  58. "913": "強化拡張パック「クリムゾンヘイズ」",
  59. "911": "バトルアカデミー",
  60. "912": "いつでもどこでも バトルアカデミー",
  61. "906": "拡張パック「ワイルドフォース」",
  62. "907": "拡張パック「サイバージャッジ」",
  63. "908": "スターターデッキ&ビルドセット「古代のコライドンex」",
  64. "909": "スターターデッキ&ビルドセット「未来のミライドンex」",
  65. "905": "ハイクラスパック「シャイニートレジャーex」",
  66. "904": "スペシャルデッキセットex フシギバナ・リザードン・カメックス",
  67. "901": "拡張パック「古代の咆哮」",
  68. "902": "拡張パック「未来の一閃」",
  69. "897": "強化拡張パック「レイジングサーフ」",
  70. "898": "スターターセット テラスタル ミュウツーex",
  71. "899": "スターターセット テラスタル ラウドボーンex",
  72. "894": "拡張パック「黒炎の支配者」",
  73. "895": "デッキビルドBOX 黒炎の支配者",
  74. "896": "ポケモンワールドチャンピオンシップス2023横浜 記念デッキ「ピカチュウ」",
  75. "884": "exスタートデッキ 草 ジュナイパー",
  76. "885": "exスタートデッキ 炎 ビクティニ",
  77. "886": "exスタートデッキ 水 ゲッコウガ",
  78. "887": "exスタートデッキ 雷 ミライドン",
  79. "888": "exスタートデッキ 超 ピクシー",
  80. "889": "exスタートデッキ 闘 コライドン",
  81. "890": "exスタートデッキ 悪 ヘルガー",
  82. "891": "exスタートデッキ 鋼 メルメタル",
  83. "892": "exスタートデッキ テラスタル カイリュー",
  84. "893": "exスタートデッキ テラスタル ヨクバリス",
  85. "882": "強化拡張パック「ポケモンカード151(イチゴーイチ)」",
  86. "881": "exスペシャルセット",
  87. "879": "拡張パック「スノーハザード」",
  88. "880": "拡張パック「クレイバースト」",
  89. "878": "スターターセットex ピカチュウex&パーモット",
  90. "877": "強化拡張パック「トリプレットビート」",
  91. "870": "拡張パック「スカーレットex」",
  92. "871": "拡張パック「バイオレットex」",
  93. "872": "スターターセットex ニャオハ&ルカリオex",
  94. "873": "スターターセットex ホゲータ&デンリュウex",
  95. "874": "スターターセットex クワッス&ミミッキュex",
  96. "875": "プレミアムトレーナーボックスex"
  97. }
  98. class JPPokemonCardSpider:
  99. # 类变量
  100. BASE_URL = "https://www.pokemon-card.com"
  101. def __init__(self, log=None):
  102. self.log = log or logger
  103. self.headers = {
  104. "accept": "application/json, text/javascript, */*; q=0.01",
  105. "user-agent": user_agent.generate_user_agent()
  106. }
  107. @staticmethod
  108. def _after_log(retry_state):
  109. """
  110. retry 回调 - 静态方法
  111. :param retry_state: RetryCallState 对象
  112. """
  113. # 检查 args 是否存在且不为空
  114. if retry_state.args and len(retry_state.args) > 0:
  115. log = retry_state.args[0] # 获取传入的 logger
  116. else:
  117. log = logger # 使用全局 logger
  118. if retry_state.outcome.failed:
  119. log.warning(
  120. f"Function '{retry_state.fn.__name__}', Attempt {retry_state.attempt_number} Times")
  121. else:
  122. log.info(f"Function '{retry_state.fn.__name__}', Attempt {retry_state.attempt_number} succeeded")
  123. @retry(stop=stop_after_attempt(5), wait=wait_fixed(1), after=_after_log)
  124. def _get_pokemon_card_single_page(self, pg_value, page=1):
  125. """
  126. 获取指定分类和页码的卡片列表
  127. """
  128. self.log.debug(f"{inspect.currentframe().f_code.co_name} start.....................")
  129. url = f"{self.BASE_URL}/card-search/resultAPI.php"
  130. params = {
  131. "keyword": "",
  132. "se_ta": "",
  133. "regulation_sidebar_form": "all",
  134. "pg": pg_value,
  135. "illust": "",
  136. "sm_and_keyword": "true",
  137. "page": str(page)
  138. }
  139. response = requests.get(url, headers=self.headers, params=params, timeout=10)
  140. response.raise_for_status()
  141. resp_json = response.json()
  142. return resp_json
  143. def _parse_pokemon_card_list(self, card_list, pg_value, pg_label, sql_pool):
  144. """
  145. 解析卡片列表,获取卡片信息
  146. """
  147. self.log.debug(f"{inspect.currentframe().f_code.co_name} start.....................")
  148. card_info_list = []
  149. for card in card_list:
  150. card_id = card.get("cardID")
  151. card_name = card.get("cardNameViewText")
  152. card_thumb = card.get("cardThumbFile")
  153. card_thumb = f'{self.BASE_URL}{card_thumb}'
  154. data_dict = {
  155. "card_id": card_id,
  156. "card_name": card_name,
  157. "img": card_thumb,
  158. "pg_value": pg_value,
  159. "pg_label": pg_label,
  160. "crawler_language": crawler_language
  161. }
  162. card_info_list.append(data_dict)
  163. if card_info_list:
  164. sql_pool.insert_many(table="pokemon_card_record_copy1", data_list=card_info_list, ignore=True)
  165. def get_pokemon_card_list(self, pg_value='', pg_label='', sql_pool=None):
  166. """
  167. 获取指定分类下的所有卡片列表 翻页
  168. """
  169. self.log.debug(f"{inspect.currentframe().f_code.co_name} start.....................")
  170. page = 1
  171. max_page = 1
  172. while page <= max_page:
  173. self.log.debug(f"正在获取第 {page} 页数据, pg_label: {pg_label} .........")
  174. page_data = self._get_pokemon_card_single_page(pg_value, page)
  175. if page_data.get("result") == 1:
  176. # 更新max_page(仅在第一页时需要更新)
  177. if page == 1:
  178. max_page = page_data.get("maxPage", 1)
  179. self.log.info(f"分类 {pg_label} 共有 {max_page} 页数据")
  180. cardList = page_data.get("cardList", [])
  181. if not cardList:
  182. self.log.warning(f"{inspect.currentframe().f_code.co_name} NOt found cardList !!!")
  183. break
  184. try:
  185. self._parse_pokemon_card_list(cardList, pg_value, pg_label, sql_pool)
  186. except Exception as e:
  187. self.log.error(f"{inspect.currentframe().f_code.co_name} parse_pokemon_card_list error: {e}")
  188. if len(cardList) < 39:
  189. self.log.debug(f"{inspect.currentframe().f_code.co_name} 获取的卡片数量小于39 !!! 停止翻页")
  190. break
  191. if page >= max_page:
  192. self.log.debug(
  193. f"{inspect.currentframe().f_code.co_name} -> page: {page}, max_page: {max_page}, 停止翻页")
  194. break
  195. if page >= 10:
  196. self.log.debug(
  197. f"{inspect.currentframe().f_code.co_name} -> page: {page}, page >= 10, 停止翻页.......")
  198. break
  199. page += 1
  200. else:
  201. self.log.warning(f"获取第 {page} 页数据失败: {page_data.get('errMsg')}")
  202. break
  203. def get_details(self, item_id, sql_pool):
  204. """
  205. 获取商品详情
  206. """
  207. self.log.debug(f"{inspect.currentframe().f_code.co_name} start, item_id: {item_id}.....................")
  208. url = f'{self.BASE_URL}/card-search/details.php/card/{item_id}'
  209. response = requests.get(url, headers=self.headers, timeout=10)
  210. response.raise_for_status()
  211. selector = Selector(response.text)
  212. card_no_list = selector.xpath('//div[@class="subtext Text-fjalla"]/text()').getall()
  213. card_no = ''.join(card_no_list)
  214. card_no = card_no.strip().replace('\xa0', '') if card_no else None
  215. tag_ic_rare = selector.xpath(
  216. '//div[@class="subtext Text-fjalla"]/img[not(contains(@class, "img-regulation"))]/@src').get()
  217. ic_rare_sp = tag_ic_rare.split('/')[-1].split('.')[0] if tag_ic_rare else None
  218. if ic_rare_sp and '_' in ic_rare_sp:
  219. ic_rare = ic_rare_sp.split('_')[-1]
  220. else:
  221. ic_rare = ic_rare_sp
  222. data_dict = {
  223. "card_no": card_no,
  224. "rarity": ic_rare
  225. }
  226. sql_pool.update_one_or_dict(
  227. table="pokemon_card_record_copy1",
  228. data=data_dict,
  229. condition={"card_id": item_id}
  230. )
  231. @retry(stop=stop_after_attempt(100), wait=wait_fixed(3600), after=_after_log)
  232. def run(self):
  233. """
  234. 主函数
  235. """
  236. self.log.info(
  237. f'开始运行 {inspect.currentframe().f_code.co_name} 爬虫任务....................................................')
  238. # 配置 MySQL 连接池
  239. sql_pool = MySQLConnectionPool(log=self.log)
  240. if not sql_pool.check_pool_health():
  241. self.log.error("数据库连接池异常")
  242. raise RuntimeError("数据库连接池异常")
  243. try:
  244. self.log.debug(f"........... 开始获取已售出商品列表 按系列获取 ..........")
  245. for pg_value, pg_label in pokemon_products.items():
  246. # print(pg_value, pg_label)
  247. try:
  248. self.get_pokemon_card_list(pg_value, pg_label, sql_pool)
  249. except Exception as e:
  250. self.log.error(f"Request get_pokemon_card_list error: {e}")
  251. # 获取商品详情
  252. # self.log.debug(f"........... 获取商品详情 ..........")
  253. # sql_ietm_id_list = sql_pool.select_all(
  254. # f"SELECT card_id FROM pokemon_card_record WHERE card_no IS NULL AND crawler_language='{crawler_language}'")
  255. # sql_ietm_id_list = [item_id[0] for item_id in sql_ietm_id_list]
  256. # for item_id in sql_ietm_id_list:
  257. # try:
  258. # self.get_details(item_id, sql_pool)
  259. # except Exception as e:
  260. # self.log.error(f"Request get_details error: {e}")
  261. except Exception as e:
  262. self.log.error(f'{inspect.currentframe().f_code.co_name} error: {e}')
  263. finally:
  264. self.log.info(f'爬虫程序 {inspect.currentframe().f_code.co_name} 运行结束,等待下一轮的采集任务............')
  265. # def schedule_task():
  266. # """
  267. # 爬虫模块 定时任务 的启动文件
  268. # """
  269. # # 创建爬虫实例
  270. # spider = JPPokemonCardSpider()
  271. #
  272. # # 立即运行一次任务
  273. # # spider.run()
  274. #
  275. # # 设置定时任务
  276. # schedule.every().day.at("01:06").do(spider.run)
  277. #
  278. # while True:
  279. # schedule.run_pending()
  280. # time.sleep(1)
  281. if __name__ == '__main__':
  282. # schedule_task()
  283. spider = JPPokemonCardSpider()
  284. spider.run()