🦏 文字コードはやっかい + 謎のコード
作成日: 2021/11/08
0

Webスクレイピングの書きかけコードを仕上げようとしていますが、文字コードの処理ではまってしまいました。

    r = requests.get(url)
    r.encoding = r.apparent_encoding

元は shift_jis で書かれたページのはずなのですが、apparent_encoding を付ける前は ISO-8859-1、付けた後は None という訳の分からない挙動をします。
念のため、ブラウザでアクセスして「名前を付けて保存」すると、ヘッダー部分に

<link rel="stylesheet" crossorigin="anonymous" href="./xxxxx_files/main.css"><style type="text/css" nonce="undefined">#A9AdsMiddleBoxTop, ...(中略)... input[onclick^="window.open('http://www.FriendlyDuck.com/"] {display: none !important; color: #1b9b36 !important; background-color: #bc7ce9 !important;}</style>

何か怪しげな内容が 380KB (htmlファイルの98%) に渡って含まれています。一体これは何なのでしょうか?


pythonで自然言語処理プログラムが書けるようになりたいと思っています。Ticketnoteで自分の到達度を確認できれば嬉しいです。