投稿:2022年3月10日
更新:2022年3月11日
こんにちわ!はじめまして、Web系フリーランスの泉原です。今回はPythonのライブラリであるrequestsの使い方を解説したいと思います。よろしくお願いします。
Pythonを使ったスクレイピングの記事を書こうと思っていて、必要なライブラリの知識を解説して、まとめに求人サイトでスクレイピングをしたいと思います!
スクレイピングを初めたい人も、ステップ毎に解説するので、少しずつ頑張っていきましょう!
Webスクレイピングの全体図
目次
Pythonを使ったスクレイピングをするときに使うライブラリです。ライブラリとは誰かが作成したツール(requests)を無料で使う事が出来る便利なやつです。
requestsは情報を取得することが出来ます。どうやって取得するかというと、HTTP通信を使って情報を取得します。
HTTPと聞いて身構える必要はありません。なんとなくHTTPと呼ばれる通信を使って、情報を取得できるんだなーと理解して頂いて大丈夫です!
それでは実際にインストールして、コードを書きながら解説したいと思います。
Pythonを使った開発をする時は仮想環境を構築して開発するのが一般的です。初めのうちはなれないかと思いますが、簡単なのでなれるようにしましょう!
仮想環境の作り方は以下の記事で詳細を解説しているので、詳しくはそちらを参照して仮想環境を構築して下さい!
今回はDesktop
にpython_scraping仮想環境
を構築して進めて行きます。
python3 -m venv 仮想環境名
とすることで仮想環境を作成出来ます。
python3 -m venv python_scraping
仮想環境の作成が出来ました。
仮想環境を有効化していきます。
source python_scraping/bin/activate
(python_scraping)
が追加されて、仮想環境が有効化されました。
python_scraping
に移動します。
cd python_scraping
準備が整ったので、仮想環境にrequests
を構築していきたいと思います。
作成したpython_scraping
にrequests
をインストールしていきます。
pip
コマンドを使って、インストールします。
pip install requests
インストールされていることを確認する
pip list
pythonファイルを作成します。
touch python_scraping.py
環境が整ったので、vscodeをひらいてコードを書いていきます👍
仮想環境にインストールしたrequests
を使って、自分のブログから情報を取得したいと思います。
ライブラリをインポートして、ブログの情報を取得します。
import requests
url = 'https://haru-haru0.com/'
res = requests.get(url)
print(res.text)
コード解説
1.import ライブラリ名
と書くことでライブラリをインポート出来ます。
import requests
2.url
に対象のブログのURLを書いています。
url = 'https://haru-haru0.com/'
3.requests.get
と書く事でブログの情報をres
に代入しています。
res = requests.get(url)
4.print関数
を使って、res
のtext
を出力しています。
print(res.text)
ターミナルからpython_scraping.py
を実行してみます。
python python_scraping.py
非常に見にくいですが、情報を抽出出来ることを確認出来ます。
基本的にはよく使われるのはget
、text
です。get
を使って、HTTPのGET通信をします。text
は取得したデータを表示します。
次の記事ではBeautifulSoup
を使って、スクレイピングをしてみたいと思います!ありがとうございました。