Webスクレイピングと robots.txt

🐉 Webスクレイピングと robots.txt

作成日： 2021/11/15

Webスクレイピングをおこなう際には、目的のサイトがスクレイピングに対してどういう方針かを前もって確認しておく必要があります。
ウェブページに利用規約が明示してある場合はそれに従いますし、明示されていない場合は 'robots.txt' を読んでそれに従います。
robots.txt は基本的にドメインのルートディレクトリに置かれることになっていて、_https://example.com/robots.txt にアクセスすると得られます。

User-agent: *
Allow: /

上記のようになっていれば、スクレイピングOKです。

User-agent: *
Disallow: /

この場合は、スクレイピング禁止です。

User-agent: *
Disallow: /search
Allow: /
Sitemap: https://example.com/sitemap.xml

この場合は、検索が禁止されていて、それ以外は許可。検索させない代わりにサイトマップの利用を指示しています。
サイトによっては、サブディレクトリごとに許可または禁止の指示を出したりして、細かく指定するところもあるようです。

ひろたか

pythonで自然言語処理プログラムが書けるようになりたいと思っています。Ticketnoteで自分の到達度を確認できれば嬉しいです。