tianyu.chu
/
poyee-data-warehouse


			
							12345678910111213141516171819202122
							import pytest
from typing import Set
from dw_base.spark.udf.customs.clean_crawler_data import get_regex_match, clean_germany_company_name


@pytest.mark.parametrize("company_name, expected", [
    ('S&#233;cheron SA', {'&#233;'}),
    ('S&#233;cheron SA\\u0022ss',{'&#233;','\\u0022'}),
    ('GEHS GR&#220;N ENERGİE HEIZUNG UND SANİT&#194;R',{'&#220;','&#194;'})
])
def test_get_regex_match(company_name: str, expected: Set[str]):
    result = get_regex_match(company_name)
    assert result == expected


@pytest.mark.parametrize("company_name, expected", [
    ('Beiersdorf Ind&#250;stria Com&#233;rcio', 'Beiersdorf Indústria Comércio'),
    ('GPS Pr&#195;&#188;ftechnik Rhein/Main GmbH', 'GPS PrÃ¼ftechnik Rhein/Main GmbH')
])
def test_clean_germany_company_name(company_name: str, expected: str):
    result = clean_germany_company_name(company_name)
    assert result == expected