【スクレイピング】簡単なrobots.txt確認方法~総務省と国立国会図書館の「robots.txt」を調べてみた
【スクレイピング】簡単なrobots.txt確認方法~総務省と国立国会図書館の「robots.txt」を調べてみた
目次
robots.txtを見るにはこれだけ
Pythonでスクレイピングを勉強していると、「実際にスクレイピングしたい時は〇〇を確認してね」と書いてあることが多いと思います。
その中の一つにrobots.txtがありますが、プログラムで判定したり、説明が初心者に親切ではなかったりするサイトが多かったので、簡単に調べる方法を共有します。
robots.txtを見るには、確認したいサイトへ飛んで、ホームディレクトリーに**/robots.txt**を書くだけです。
「ホームディレクトリー?、/robots.txtを書く?」という方のために実際にやってみます。
手順1)確認したいサイトへ移動
今回は、弊社サイトのrobots.txtを見てみることにします。
サイトURLは、[https://blog.since2020.jp/]なので、そこへ移動します
手順2)サイト上部のURLが書いてある場所をクリック
ブラウザによって場所が若干異なるかもしれませんが、URLを書いてある場所をクリックすると編集できるようになります。
ちなみに、https://の次に来る**blog.since2020.jp** がホームディレクトリに相当します。
手順3)URL末尾に「/robots.txt」 を追記する
そこで、/robots.txt をblog.since2020.jpの下に打ち込みます。
そしてエンターキーを押すとrobots.txtの中身が表示されました!
色々なサイトのrobots.txtを見てみよう1_総務省Webサイト
ここでいくつかのサイトのrobots.txtを見てみましょう
●総務省
総務省公式サイト[https://www.soumu.go.jp/]をみてみましょう。
https://www.soumu.go.jp/ にrobots.txtをつけると、下記画像が表示されました。
ia_archiverというユーザーエージェント(UA)がページをクロールすることを禁止しています。
ia_archiverは、webページの更新記録を残すために使われているクローラーであり、場合によってはサイト上にリンクされていない、本来飛べないはずのページの履歴も取得することがあります。
ia_archiverを拒否する意図は色々ありますが、ページ閲覧者に見せる意図がないページの記録を取られて、誰でも閲覧できてしまうのは不適切だと判断したのかもしれませんね。
色々なサイトのrobots.txtを見てみよう2_国立国会図書館Webサイト
●国立国会図書館
国立国会図書館の公式サイト [https://www.ndl.go.jp/]のrobots.txtはどうでしょうか?
https://www.soumu.go.jp/ にrobots.txtをつけると、テキストファイル「robots.txt」がダウンロードされました。サイト上で表示されずに、txtファイルとしてダウンロードされる場合もあるみたいです。中身を見てみると、全ユーザーが /jp/publication/jmbwlのディレクトリをクロールすることを禁止しています(下記画像を参照)。
それ以外に関しては、robots.txt上では許可されていますね。
「robots.txt」ファイルは簡単に確認可能
このようにrobots.txtファイルは簡単に確認することができ、中身を見てみると興味深い設定がされているサイトが見つかるかもしれません。
ただし実際にプログラムを走らせてクロールする際は、利用規約でRPAやスクレイピングが禁止されているのかを確認し、処理にtime.sleep(1)などを追加してサーバーに負荷をかけないようにしましょう。