🦒 【メモ】utf-8 ファイルの文字化けの解消
作成日: 2022/02/26
0

utf-8 エンコーディングのはずなのに、アクサン符号付き文字が文字化けする場合、encode() と decode() を続けて適用すると解消できることがある。

'AntaÅ­­parolo'.encode(encoding='ISO-8859-1').decode(encoding='utf-8')

結果 'Antaŭparolo' が得られる。

デコードでエラーが出る場合は、とりあえずの措置として errors='replace' をパラメータに追加するとよい。

~.decode(encoding='utf-8', errors='replace')

pythonで自然言語処理プログラムが書けるようになりたいと思っています。Ticketnoteで自分の到達度を確認できれば嬉しいです。