2 hete · a437262176
--- a/dw_base/udf/common/spark_common_udf.py
+++ b/dw_base/udf/common/spark_common_udf.py
@@ -11,44 +11,85 @@ import html
 
															 import json
														
 
															 import random
														
 
															 import re
														
 
															-import traceback
														
 
															-from collections import Counter
														
 
															+from ast import literal_eval
														
 
															 from datetime import datetime
														
 
															 from typing import Dict, List, Union
														
 
															 from pyspark.sql.functions import udf
														
 
															 from pyspark.sql.types import (
														
 
															-    ArrayType, BooleanType, FloatType, IntegerType, LongType, MapType,
														
 
															-    StringType, StructField, StructType,
														
 
															+    ArrayType, BooleanType, FloatType, LongType, MapType, StringType,
														
 
															 )
														
 
															 from dw_base.utils.datetime_utils import parse_datetime
														
 
															+def _load_json_or_default(data, default=None):
														
 
															+    """优先按 JSON 解析，失败时返回默认值。"""
														
 
															+    try:
														
 
															+        return json.loads(data)
														
 
															+    except (TypeError, ValueError):
														
 
															+        return default
														
 
															+
														
 
															+
														
 
															+def _load_json_or_literal(data, default=None):
														
 
															+    """先按 JSON 解析，失败后再按 Python 字面量兜底解析。"""
														
 
															+    parsed = _load_json_or_default(data, default=None)
														
 
															+    if parsed is not None:
														
 
															+        return parsed
														
 
															+    try:
														
 
															+        return literal_eval(data)
														
 
															+    except (ValueError, SyntaxError, TypeError):
														
 
															+        return default
														
 
															+
														
 
															+
														
 
															+def _dedupe_keep_order(values: List) -> List:
														
 
															+    """按原始顺序去重。"""
														
 
															+    result = []
														
 
															+    for value in values:
														
 
															+        if value not in result:
														
 
															+            result.append(value)
														
 
															+    return result
														
 
															+
														
 
															+
														
 
															+def _merge_non_empty_values(*arrays: List) -> List[str]:
														
 
															+    """合并多个数组，并过滤 None 与空字符串。"""
														
 
															+    result = set()
														
 
															+    for array in arrays:
														
 
															+        if array is None:
														
 
															+            continue
														
 
															+        for item in array:
														
 
															+            if item is not None and item != "":
														
 
															+                result.add(item)
														
 
															+    return list(result)
														
 
															+
														
 
															+
														
 
															 # ==================== JSON ====================
														
 
															+# UDF-01 JSON校验：判断输入是否为合法 JSON 字符串。
														
 
															 @udf(returnType=BooleanType())
														
 
															 def is_json(data) -> bool:
														
 
															+    """判断输入是否为合法 JSON 字符串。"""
														
 
															     try:
														
 
															         json.loads(data)
														
 
															-    except:
														
 
															+    except (TypeError, ValueError):
														
 
															         return False
														
 
															     return True
														
 
															+# UDF-02 JSON取键：提取 JSON object 的 key 列表。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def json_object_keys(json_str: str) -> List[str]:
														
 
															+    """提取 JSON object 的 key 列表。"""
														
 
															     if not json_str:
														
 
															         return None
														
 
															-    try:
														
 
															-        json_dict = json.loads(json_str)  # type:dict
														
 
															-        return [k for k in json_dict.keys()]
														
 
															-    except:
														
 
															+    json_dict = _load_json_or_default(json_str, default=None)  # type:dict
														
 
															+    if not isinstance(json_dict, dict):
														
 
															         return None
														
 
															+    return [k for k in json_dict.keys()]
														
 
															 def flatten_json(json_str: str, reserve_parent: bool = True) -> str:
														
 
															-    """展平 json，reserve_parent 控制是否保留父 key"""
														
 
															+    """展平 JSON 字符串，`reserve_parent` 控制是否保留父级 key。"""
														
 
															     def flatten_json_node(parent, json_element) -> Union[float, int, str, Dict, List]:
														
 
															         if isinstance(json_element, dict):
														
@@ -78,13 +119,12 @@ def flatten_json(json_str: str, reserve_parent: bool = True) -> str:
 
															         json_node = json.loads(json_str)
														
 
															         flattened_json = flatten_json_node(None, json_node)
														
 
															         return json.dumps(flattened_json, ensure_ascii=False)
														
 
															-    except Exception as e:
														
 
															-        traceback.format_exc(e)
														
 
															+    except (TypeError, ValueError):
														
 
															         return json_str
														
 
															 def remove_empty_key(info):
														
 
															-    """递归删除 json 中 value 为空的 key"""
														
 
															+    """递归删除 JSON 中 value 为空的 key。"""
														
 
															     json_info = json.loads(info)
														
 
															     def internal_remove(json_info):
														
@@ -118,20 +158,17 @@ def remove_empty_key(info):
 
															 def append_to_json_array(json_array_string: str, new_element, remove_duplicate: bool = False) -> str:
														
 
															-    """向 JSON array 追加元素，可选去重"""
														
 
															+    """向 JSON array 末尾追加元素，可选去重。"""
														
 
															     if not new_element:
														
 
															         return json_array_string
														
 
															     if not json_array_string:
														
 
															         return json.dumps([new_element], ensure_ascii=False)
														
 
															-    json_array = json.loads(json_array_string)  # type: list
														
 
															+    json_array = _load_json_or_default(json_array_string, default=None)  # type: list
														
 
															+    if not isinstance(json_array, list):
														
 
															+        return json_array_string
														
 
															     json_array.append(new_element)
														
 
															     if remove_duplicate is True:
														
 
															-        result = []
														
 
															-        for elem in json_array:
														
 
															-            if result.__contains__(elem):
														
 
															-                continue
														
 
															-            result.append(elem)
														
 
															-        return json.dumps(result, ensure_ascii=False)
														
 
															+        return json.dumps(_dedupe_keep_order(json_array), ensure_ascii=False)
														
 
															     return json.dumps(json_array, ensure_ascii=False)
														
@@ -139,7 +176,7 @@ def json_array_subset(json_array_string: str,
 
															                       subset_fields: Union[List, str],
														
 
															                       as_list: bool = False,
														
 
															                       skip_null: bool = False) -> str:
														
 
															-    """按字段提取 json object array 的子集"""
														
 
															+    """按字段提取 JSON object array 的子集。"""
														
 
															     if not json_array_string:
														
 
															         return None
														
 
															     if not subset_fields:
														
@@ -150,10 +187,9 @@ def json_array_subset(json_array_string: str,
 
															         subset_field_list = subset_fields
														
 
															     if len(subset_field_list) == 0:
														
 
															         return None
														
 
															-    try:
														
 
															-        json_array = json.loads(json_array_string)
														
 
															-    except:
														
 
															-        json_array = eval(json_array_string)
														
 
															+    json_array = _load_json_or_literal(json_array_string, default=None)
														
 
															+    if not isinstance(json_array, list):
														
 
															+        return None
														
 
															     list_subset = []
														
 
															     if len(subset_field_list) == 1 and as_list:
														
 
															         only_subset_field = subset_field_list[0]
														
@@ -174,26 +210,12 @@ def json_array_subset(json_array_string: str,
 
															     return json.dumps(list_subset, ensure_ascii=False)
														
 
															-@udf(returnType=ArrayType(StructType([
														
 
															-    StructField("idx", IntegerType(), False),
														
 
															-    StructField("obj", StringType(), False),
														
 
															-])))
														
 
															-def parse_jsonarr_to_arr(s: str):
														
 
															-    return [(i + 1, json.dumps(obj)) for i, obj in enumerate(json.loads(s))]
														
 
															-
														
 
															-
														
 
															-@udf(returnType=ArrayType(StructType([
														
 
															-    StructField("idx", IntegerType(), False),
														
 
															-    StructField("obj", StringType(), False),
														
 
															-])))
														
 
															-def parse_jsonarr_to_strarr(s: str):
														
 
															-    return [(i + 1, obj) for i, obj in enumerate(json.loads(s))]
														
 
															-
														
 
															-
														
 
															 # ==================== ARRAY ====================
														
 
															+# UDF-21 数组交集：计算两个数组的交集。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def array_intersect(arr1, arr2):
														
 
															+    """计算两个数组的交集。"""
														
 
															     return list(set(arr1) & set(arr2))
														
@@ -201,6 +223,7 @@ def array_append(array: List, new_element,
 
															                  ignore_null: bool = False,
														
 
															                  remove_duplicate: bool = False,
														
 
															                  need_sort: bool = False) -> List:
														
 
															+    """向数组追加元素，可按现有规则控制空值、去重和排序。"""
														
 
															     if not array or len(array) == 0:
														
 
															         if new_element or ignore_null is not True:
														
 
															             return [new_element]
														
@@ -217,76 +240,28 @@ def array_append(array: List, new_element,
 
															     return array
														
 
															+# UDF-22 数组切片：按起止下标截取数组。
														
 
															 @udf(ArrayType(StringType()))
														
 
															 def array_slice(input_array, start, end):
														
 
															+    """截取数组切片，行为与 Python 切片一致。"""
														
 
															     if input_array:
														
 
															         return input_array[start:end]
														
 
															     return []
														
 
															+# UDF-23 数组合并：合并二维数组，并过滤 None 与空字符串。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def merge_list(arr_list: List):
														
 
															-    res = set()
														
 
															-    for e in arr_list:
														
 
															-        if e is not None:
														
 
															-            for i in e:
														
 
															-                if i is not None and i != "":
														
 
															-                    res.add(i)
														
 
															-    return list(res)
														
 
															-
														
 
															-
														
 
															-@udf(returnType=ArrayType(StringType()))
														
 
															-def merge_source(incr_source: List, old_source: List):
														
 
															-    res = set()
														
 
															-    if incr_source is not None:
														
 
															-        for i in incr_source:
														
 
															-            if i is not None and i != "":
														
 
															-                res.add(i)
														
 
															-    if old_source is not None:
														
 
															-        for i in old_source:
														
 
															-            if i is not None and i != "":
														
 
															-                res.add(i)
														
 
															-    return list(res)
														
 
															-
														
 
															-
														
 
															-@udf(returnType=StructType([
														
 
															-    StructField("k", ArrayType(StringType()), False),
														
 
															-    StructField("kv", StringType()),
														
 
															-]))
														
 
															-def parse_arr_and_count(arr, tag: str, return_count: int = -1):
														
 
															-    ele_cnt_dict = Counter(arr)
														
 
															-    json_list = sorted([{"code": key, "num": value} for key, value in ele_cnt_dict.items()], key=lambda x: x["num"], reverse=True)
														
 
															-    if return_count < 0:
														
 
															-        return [obj['code'] for obj in json_list], ",".join(['{' + f'{i["code"]},{tag}:{i["num"]}' + '}' for i in json_list])
														
 
															-    list_len = len(json_list)
														
 
															-    index = list_len if return_count >= list_len else return_count
														
 
															-    return [obj['code'] for obj in json_list][:index], ",".join(['{' + f'{i["code"]},{tag}:{i["num"]}' + '}' for i in json_list[:index]])
														
 
															-
														
 
															-
														
 
															-@udf(returnType=StructType([
														
 
															-    StructField("sum", FloatType(), False),
														
 
															-    StructField("list", StringType()),
														
 
															-]))
														
 
															-def parse_arr_and_sum(struct_arr, tag: str):
														
 
															-    sum_dict = {}
														
 
															-    for s in struct_arr:
														
 
															-        key = s[0]
														
 
															-        value: float = s[1]
														
 
															-        if key not in sum_dict:
														
 
															-            sum_dict[key] = 0.0
														
 
															-        if value is not None:
														
 
															-            sum_dict[key] += value
														
 
															-    json_list = sorted([{"code": key, "num": value} for key, value in sum_dict.items()], key=lambda x: x["num"], reverse=True)
														
 
															-    total = 0.0
														
 
															-    for obj in json_list:
														
 
															-        total += obj["num"]
														
 
															-    return round(total, 2), ",".join(['{' + f'{i["code"]},{tag}:{round(i["num"], 2)}' + '}' for i in json_list])
														
 
															+    """合并二维数组，并过滤 None 与空字符串。"""
														
 
															+    return _merge_non_empty_values(*(arr_list or []))
														
 
															 # ==================== STRING ====================
														
 
															+# UDF-31 中文检测：判断字符串中是否包含中文字符。
														
 
															 @udf(returnType=BooleanType())
														
 
															 def has_chinese(datum: str) -> bool:
														
 
															+    """判断字符串中是否包含中文字符。"""
														
 
															     if datum:
														
 
															         pattern = re.compile(u'[\u4e00-\u9fa5]')
														
 
															         if pattern.search(datum):
														
@@ -294,64 +269,66 @@ def has_chinese(datum: str) -> bool:
 
															     return False
														
 
															+# UDF-32 相似度计算：计算两个字符串的快速相似度。
														
 
															 @udf(returnType=FloatType())
														
 
															 def similarity(left: str, right: str) -> float:
														
 
															+    """计算两个字符串的快速相似度。"""
														
 
															     return difflib.SequenceMatcher(None, left, right).quick_ratio()
														
 
															+# UDF-33 正则全提取：提取正则表达式的全部匹配结果。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def regexp_extract_all(col: str, ptn: str, g: int = 0):
														
 
															+    """提取正则表达式的全部匹配结果。"""
														
 
															     return [e.group(g) for e in re.compile(ptn).finditer(col if col else '')]
														
 
															 def add_random_number_prefix(datum: str, separator: str, floor: int, ceiling: int) -> str:
														
 
															+    """给字符串追加随机数字前缀。"""
														
 
															     return f'{random.randint(floor, ceiling)}{separator}{datum}'
														
 
															 def field_merge(delimiter: str, *fields_values):
														
 
															-    """多字段合并，相同仅保留一个，不同用 delimiter 分隔"""
														
 
															+    """合并多个字段值，去重后用指定分隔符拼接。"""
														
 
															     if not fields_values:
														
 
															         return None
														
 
															     result = []
														
 
															-    [result.append(value.strip()) for value in fields_values if value and value.strip() not in result]
														
 
															+    for value in fields_values:
														
 
															+        if value and value.strip() not in result:
														
 
															+            result.append(value.strip())
														
 
															     return delimiter.join(result)
														
 
															 def space2null(text):
														
 
															+    """把空白字符串规范化为 None。"""
														
 
															     if text and not text.isspace():
														
 
															         return text
														
 
															     return None
														
 
															 def merge_ws(text: str):
														
 
															+    """压缩多余空白符，只保留单个空格。"""
														
 
															     if text:
														
 
															         return ' '.join(text.split())
														
 
															     return None
														
 
															 def remove_special_char(text, char):
														
 
															+    """如果字符串以指定字符结尾，则移除最后一个字符。"""
														
 
															     if text is not None and text.endswith(char):
														
 
															         return text[:-1]
														
 
															     return text
														
 
															-@udf(returnType=ArrayType(StringType()))
														
 
															-def explode_str_to_arr(text: str) -> list:
														
 
															-    """大于 8 位时，从后往前每次少一位截取子串入数组（用于前缀匹配场景）"""
														
 
															-    if text is None:
														
 
															-        return []
														
 
															-    if len(text) <= 8:
														
 
															-        return [text]
														
 
															-    return [text[:i] for i in range(len(text), 7, -1)]
														
 
															-
														
 
															-
														
 
															 def html_unescape(text):
														
 
															+    """反转义 HTML 实体。"""
														
 
															     return html.unescape(text)
														
 
															 # ==================== NUMERIC / DATE / HASH ====================
														
 
															 def max_value(*args):
														
 
															+    """按现有真假值规则返回最大值。"""
														
 
															     maxi_value = None
														
 
															     for elem in args:
														
 
															         if not elem:
														
@@ -362,6 +339,7 @@ def max_value(*args):
 
															 def min_value(*args):
														
 
															+    """按现有真假值规则返回最小值。"""
														
 
															     mini_value = None
														
 
															     for elem in args:
														
 
															         if not elem:
														
@@ -372,12 +350,14 @@ def min_value(*args):
 
															 def millis_timestamp_to_str(ts: int, str_format: str = None) -> str:
														
 
															+    """把毫秒时间戳转换为时间字符串。"""
														
 
															     date_time = datetime.fromtimestamp(ts / 1000.0)
														
 
															     if str_format:
														
 
															         return date_time.strftime(str_format)
														
 
															     return date_time.strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]
														
 
															+# UDF-41 时间解析：把日期字符串解析为时间戳。
														
 
															 @udf(returnType=LongType())
														
 
															 def parse_datetime_to_timestamp(date_time: str, in_milli_seconds: bool = False, original_format: str = None) -> int:
														
 
															     """字符串日期 → 时间戳；支持 YY.MM.DD / YYYY年M月D日 启发式识别"""
														
@@ -406,6 +386,7 @@ def parse_datetime_to_timestamp(date_time: str, in_milli_seconds: bool = False,
 
															             return None
														
 
															+# UDF-42 MD5摘要：把多列值按长度前缀拼接后计算 MD5。
														
 
															 @udf(returnType=StringType())
														
 
															 def get_md5(*cols: str) -> str:
														
 
															     """多列拼接（带长度前缀防碰撞）后取 md5"""
														
@@ -425,31 +406,39 @@ def get_md5(*cols: str) -> str:
 
															 # ==================== CROSS-TYPE CONVERTERS ====================
														
 
															 def array_to_json(arr: List):
														
 
															+    """把数组序列化为 JSON 字符串。"""
														
 
															     return json.dumps(arr, ensure_ascii=False)
														
 
															 def map_to_json(map: dict):
														
 
															+    """把字典序列化为 JSON 字符串。"""
														
 
															     return json.dumps(map, ensure_ascii=False)
														
 
															 def struct_to_json(struct):
														
 
															+    """把结构体对象转换为 JSON 字符串。"""
														
 
															     json_dict = {key: struct[key] for key in struct.__dict__["__fields__"]}
														
 
															     return json.dumps(json_dict, ensure_ascii=False)
														
 
															 def num_to_str(number):
														
 
															+    """把数值转换成字符串，整数型浮点数去掉小数位。"""
														
 
															     if isinstance(number, float) and number.is_integer():
														
 
															         return '{:.0f}'.format(number)
														
 
															     return str(int(number)) if isinstance(number, int) else str(number)
														
 
															+# UDF-51 字符串转数组：把 JSON array 字符串转换为 Python list。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def str_to_arr(json_str: str) -> list:
														
 
															+    """把 JSON array 字符串转换为 Python list。"""
														
 
															     if json_str:
														
 
															-        return json.loads(json_str)
														
 
															+        parsed = _load_json_or_default(json_str, default=[])
														
 
															+        return parsed if isinstance(parsed, list) else []
														
 
															     return []
														
 
															+# UDF-52 字符串转JSON字符串数组：把 JSON array 转为 JSON 字符串数组。
														
 
															 @udf(returnType=ArrayType(StringType()))
														
 
															 def str_to_json_arr(json_str):
														
 
															     """JSON array 字符串 → list of json strings（每个元素再 json.dumps）"""
														
@@ -463,33 +452,11 @@ def str_to_json_arr(json_str):
 
															     return []
														
 
															+# UDF-53 字符串转Map数组：把 JSON array 字符串转换为 map 数组。
														
 
															 @udf(returnType=ArrayType(MapType(StringType(), StringType())))
														
 
															 def str_to_map_arr(json_str: str) -> list:
														
 
															+    """把 JSON array 字符串转换为 map 数组。"""
														
 
															     if json_str:
														
 
															-        return json.loads(json_str)
														
 
															+        parsed = _load_json_or_default(json_str, default=[])
														
 
															+        return parsed if isinstance(parsed, list) else []
														
 
															     return []
														
 
															-
														
 
															-
														
 
															-@udf(returnType=StringType())
														
 
															-def split_str_to_jsonstr(str_list: List):
														
 
															-    """每个元素按 ':' 切成 k:v，聚合成 JSON 字符串"""
														
 
															-    res = []
														
 
															-    for kv_str in str_list:
														
 
															-        arr = kv_str.split(':')
														
 
															-        if len(arr) == 2:
														
 
															-            res.append({arr[0]: arr[1]})
														
 
															-    return json.dumps(res, ensure_ascii=False)
														
 
															-
														
 
															-
														
 
															-@udf(returnType=MapType(StringType(), ArrayType(StringType())))
														
 
															-def split_str_to_maparr(str_list: List):
														
 
															-    """每个元素按 ':' 切成 k:v，同 key 追加到 list"""
														
 
															-    res = {}
														
 
															-    for kv_str in str_list:
														
 
															-        arr = kv_str.split(':')
														
 
															-        if len(arr) == 2:
														
 
															-            if arr[0] not in res:
														
 
															-                res[arr[0]] = [arr[1]]
														
 
															-            else:
														
 
															-                res[arr[0]].append(arr[1])
														
 
															-    return res
														
--- a/tests/unit/udf/test_spark_common_udf.py
+++ b/tests/unit/udf/test_spark_common_udf.py
@@ -0,0 +1,139 @@
 
															+import json
														
 
															+from datetime import datetime
														
 
															+
														
 
															+from dw_base.udf.common import spark_common_udf as udf_module
														
 
															+
														
 
															+
														
 
															+def test_json_object_keys_returns_keys_for_json_object():
														
 
															+    assert udf_module.json_object_keys.func('{"a": 1, "b": 2}') == ["a", "b"]
														
 
															+
														
 
															+
														
 
															+def test_json_array_subset_supports_python_literal_without_eval():
														
 
															+    data = "[{'name': 'alice', 'age': 18}, {'name': 'bob', 'age': 20}]"
														
 
															+
														
 
															+    result = udf_module.json_array_subset(data, "name", as_list=True)
														
 
															+
														
 
															+    assert json.loads(result) == ["alice", "bob"]
														
 
															+
														
 
															+
														
 
															+def test_json_array_subset_returns_none_for_invalid_input():
														
 
															+    assert udf_module.json_array_subset("not-json", "name") is None
														
 
															+
														
 
															+
														
 
															+def test_append_to_json_array_returns_original_when_source_is_invalid_json():
														
 
															+    assert udf_module.append_to_json_array("not-json", "x") == "not-json"
														
 
															+
														
 
															+
														
 
															+def test_append_to_json_array_can_remove_duplicates():
														
 
															+    result = udf_module.append_to_json_array('["a", "b"]', "a", remove_duplicate=True)
														
 
															+
														
 
															+    assert json.loads(result) == ["a", "b"]
														
 
															+
														
 
															+
														
 
															+def test_flatten_json_returns_original_text_for_invalid_json():
														
 
															+    assert udf_module.flatten_json("not-json") == "not-json"
														
 
															+
														
 
															+
														
 
															+def test_remove_empty_key_removes_empty_values_recursively():
														
 
															+    source = json.dumps({
														
 
															+        "a": "",
														
 
															+        "b": None,
														
 
															+        "c": {"d": "", "e": 1},
														
 
															+        "f": ["", {"g": "x"}],
														
 
															+    })
														
 
															+
														
 
															+    assert json.loads(udf_module.remove_empty_key(source)) == {"c": {"e": "1"}, "f": [{"g": "x"}]}
														
 
															+
														
 
															+
														
 
															+def test_merge_list_keeps_existing_semantics():
														
 
															+    merged_list = sorted(udf_module.merge_list.func([["a", "", None], ["b", "a"], None]))
														
 
															+
														
 
															+    assert merged_list == ["a", "b"]
														
 
															+
														
 
															+
														
 
															+def test_array_intersect_returns_common_items():
														
 
															+    assert sorted(udf_module.array_intersect.func(["a", "b"], ["b", "c"])) == ["b"]
														
 
															+
														
 
															+
														
 
															+def test_array_append_respects_existing_semantics():
														
 
															+    assert udf_module.array_append(["a"], "a", remove_duplicate=True) == ["a"]
														
 
															+    assert udf_module.array_append(["b"], "a", need_sort=True) == ["a", "b"]
														
 
															+
														
 
															+
														
 
															+def test_array_slice_returns_sub_list():
														
 
															+    assert udf_module.array_slice.func(["a", "b", "c"], 1, 3) == ["b", "c"]
														
 
															+
														
 
															+
														
 
															+def test_has_chinese_detects_chinese_characters():
														
 
															+    assert udf_module.has_chinese.func("abc中文") is True
														
 
															+    assert udf_module.has_chinese.func("abc") is False
														
 
															+
														
 
															+
														
 
															+def test_similarity_returns_high_score_for_identical_strings():
														
 
															+    assert udf_module.similarity.func("abc", "abc") == 1.0
														
 
															+
														
 
															+
														
 
															+def test_regexp_extract_all_extracts_all_matches():
														
 
															+    assert udf_module.regexp_extract_all.func("a1b22c333", r"\d+") == ["1", "22", "333"]
														
 
															+
														
 
															+
														
 
															+def test_field_merge_deduplicates_values():
														
 
															+    assert udf_module.field_merge(",", " a ", "b", "a", None) == "a,b"
														
 
															+
														
 
															+
														
 
															+def test_space2null_and_merge_ws_and_remove_special_char():
														
 
															+    assert udf_module.space2null("   ") is None
														
 
															+    assert udf_module.space2null(" a ") == " a "
														
 
															+    assert udf_module.merge_ws("a   b\tc") == "a b c"
														
 
															+    assert udf_module.remove_special_char("abc,", ",") == "abc"
														
 
															+
														
 
															+
														
 
															+def test_html_unescape_restores_html_entities():
														
 
															+    assert udf_module.html_unescape("&lt;div&gt;Tom &amp; Jerry&lt;/div&gt;") == "<div>Tom & Jerry</div>"
														
 
															+
														
 
															+
														
 
															+def test_max_value_and_min_value_keep_existing_truthy_semantics():
														
 
															+    assert udf_module.max_value(None, 2, 1) == 2
														
 
															+    assert udf_module.min_value(None, 2, 1) == 1
														
 
															+
														
 
															+
														
 
															+def test_millis_timestamp_to_str_formats_milliseconds():
														
 
															+    expected = datetime.fromtimestamp(0).strftime("%Y-%m-%d %H:%M:%S.%f")[:-3]
														
 
															+    assert udf_module.millis_timestamp_to_str(0) == expected
														
 
															+
														
 
															+
														
 
															+def test_parse_datetime_to_timestamp_supports_seconds_and_milliseconds():
														
 
															+    expected_seconds = int(datetime(2024, 1, 2, 3, 4, 5).timestamp())
														
 
															+    expected_milliseconds = expected_seconds * 1000
														
 
															+
														
 
															+    assert udf_module.parse_datetime_to_timestamp.func("2024-01-02 03:04:05") == expected_seconds
														
 
															+    assert udf_module.parse_datetime_to_timestamp.func(str(expected_milliseconds)) == expected_seconds
														
 
															+    assert udf_module.parse_datetime_to_timestamp.func(str(expected_seconds), in_milli_seconds=True) == expected_milliseconds
														
 
															+
														
 
															+
														
 
															+def test_get_md5_is_stable_for_same_inputs():
														
 
															+    assert udf_module.get_md5.func("ab", "cd") == udf_module.get_md5.func("ab", "cd")
														
 
															+    assert udf_module.get_md5.func(None) == ""
														
 
															+
														
 
															+
														
 
															+def test_array_to_json_and_map_to_json_and_num_to_str():
														
 
															+    assert json.loads(udf_module.array_to_json(["a", 1])) == ["a", 1]
														
 
															+    assert json.loads(udf_module.map_to_json({"a": 1})) == {"a": 1}
														
 
															+    assert udf_module.num_to_str(1.0) == "1"
														
 
															+    assert udf_module.num_to_str(2) == "2"
														
 
															+
														
 
															+
														
 
															+def test_str_to_arr_returns_empty_when_json_is_invalid():
														
 
															+    assert udf_module.str_to_arr.func("not-json") == []
														
 
															+
														
 
															+
														
 
															+def test_str_to_json_arr_returns_json_strings():
														
 
															+    assert udf_module.str_to_json_arr.func('[{"a": 1}, {"b": 2}]') == ['{"a": 1}', '{"b": 2}']
														
 
															+
														
 
															+
														
 
															+def test_str_to_map_arr_returns_empty_when_json_is_not_list():
														
 
															+    assert udf_module.str_to_map_arr.func('{"a": 1}') == []
														
 
															+
														
 
															+
														
 
															+def test_is_json_handles_none():
														
 
															+    assert udf_module.is_json.func(None) is False