tianyu.chu
/
poyee-data-warehouse


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130
							import re
from typing import Set, Any

germany_clean_dict = {
    '&#232;': 'è',
    '&#163;': '£',
    '&#249;': 'ù',
    '&#238;': 'î',
    '&#212;': 'Ô',
    '&#251;': 'û',
    '&#227;': 'ã',
    '&#229;': 'å',
    '&#248;': 'ø',
    '&#223;': 'ß',
    '&#179;': '³',
    '&#245;': 'õ',
    '&#214;': 'Ö',
    '&#209;': 'Ñ',
    '&#234;': 'ê',
    '&#240;': 'ð',
    '&#192;': 'À',
    '&#235;': 'ë',
    '\u003e': '>',
    '&#244;': 'ô',
    '&#202;': 'Ê',
    '&#226;': 'â',
    '&#224;': 'à',
    '&#197;': 'Å',
    '&#191;': '¿',
    '&#221;': 'Ý',
    '&#230;': 'æ',
    '&#253;': 'ý',
    '&#242;': 'ò',
    '&#216;': 'Ø',
    '&#239;': 'ï',
    '&#171;': '«',
    '&#236;': 'ì',
    '&#201;': 'É',
    '&#180;': '´',
    '&#218;': 'Ú',
    '&#187;': '»',
    '&#213;': 'Õ',
    '&#200;': 'È',
    '&#178;': '²',
    '&#176;': '°',
    '&#204;': 'Ì',
    '&#173;': '',
    '&#233;': 'é',
    '&#250;': 'ú',
    '&#246;': 'ö',
    '&#225;': 'á',
    '&#243;': 'ó',
    '&#228;': 'ä',
    '&#252;': 'ü',
    '&#220;': 'Ü',
    '&#231;': 'ç',
    '&#241;': 'ñ',
    '&#205;': 'Í',
    '&#199;': 'Ç',
    '&#193;': 'Á',
    '&#174;': '®',
    '&#183;': '·',
    '&#196;': 'Ä',
    '&#188;': '¼',
    '&#194;': 'Â',
    '&#169;': '©',
    '&#237;': 'í',
    '&#211;': 'Ó',
    '&#195;': 'Ã',
    '&#182;': '¶',
    '\u0027': '"',
    '\u0022': "'"
}


def clean_germany_company_name(name) -> str:
    for key, value in germany_clean_dict.items():
        if key in name:
            name = name.replace(key, value)
    return name


def get_regex_match(text) -> Set[Any]:
    regex_list = set()
    pattern_list = [r'&#\d{3};', r'\\u[0-9A-Fa-f]{4}']
    for pattern in pattern_list:
        match_list = re.findall(pattern, text)
        if len(match_list) == 0:
            continue
        for match in match_list:
            regex_list.add(match)
    return regex_list


if __name__ == '__main__':
    test_cases = [
        'S&#233;cheron SA',
        'Beiersdorf Ind&#250;stria Com&#233;rcio',
        'Mitan Mineral&#246;l GmbH',
        'Atmos Chr&#225;st',
        'Damatic Automatizaci&#243;n S.L',
        'Wibre Elektroger&#228;te Edmund Breuninger GmbH & Co. KG',
        'Aslant&#252;rk Kau&#231;uk San. Tic., Limited Şti.',
        'eurokomplekt O&#220;',
        'Aslant&#252;rk Kau&#231;uk San. Tic., Limited Şti.',
        'Tiru&#241;a',
        'Baader &#205;sland Ehf',
        '&#199;ınar Ecza Deposu',
        'TATAB&#193;NYAI RUG&#211;GY&#193;RT&#211; KFT.',
        'Aquagart&#174; Trading GmbH',
        'Wessel&#183;Werk GmbH',
        '&#196;tztechnik Herz',
        'GPS Pr&#195;&#188;ftechnik Rhein/Main GmbH',
        'GEHS GR&#220;N ENERGİE HEIZUNG UND SANİT&#194;R',
        '@Sartorius Stedim Biotech Wunderland AG G&#246;ttingen /&#169;ss',
        'Concesionaria Vuela Compa&#241;&#237;a de Aviaci&#243;n SAPI de CV',
        'TATAB&#193;NYAI RUG&#211;GY&#193;RT&#211; KFT.',
        'GPS Pr&#195;&#188;ftechnik Rhein/Main GmbH',
        'Fr&#195;&#182;lich + Kl&#195;Œpfel Drucklufttechnik GmbH & Co. KG',
        'DE\u0027 LONGHI APPLIANCES S.R.L.',
        'FREY WILLE\u0022 GmbH & Co.KG.',
        'Concesionaria Vuela Compa&#241;&#237;a de Aviaci&#243;n SAPI de CV',
        'TATAB&#193;NYAI RUG&#211;GY&#193;RT&#211; KFT.',
        'GPS Pr&#195;&#188;ftechnik Rhein/Main GmbH'

    ]
    for test_case in test_cases:
        print("{:<50} {:>50}".format(test_case, clean_germany_company_name(test_case)))

# print(get_regex_match("S&#233;cheron SA\\u0022ss"))