Pythonで画像認識してみたいです。
このような要望にお応えします。
今回は、YOLOv3の学習済みモデルを用いた物体検知をします。
下記のサイトを参考にさせていただきました。
- https://pjreddie.com/darknet/yolo/
- https://pjreddie.com/media/files/papers/YOLOv3.pdf
YOLOv3について
YOLOv3は、入力画像から物体の位置と種類を検出することができます。
YOLOv3の手法等の情報は、下記の論文を参照ください。
YOLOv3: An Incremental Improvement
- https://pjreddie.com/media/files/papers/YOLOv3.pdf
Google Colaboratoryの準備
・Googleのアカウントを作成します。
・Googleドライブにアクセスし、「新規」→「その他」から「Google Colaboratory」の順でクリックします。そうすると、Colaboratoryが起動します。
・Colaboratoryが起動したら、以下のコマンドをCoalboratoryのセルに入力し実行します。
そうすることで、Googleドライブをマウントします。
1 2 |
from google.colab import drive drive.mount('/content/drive') |
・実行後、認証コードの入力が促されます。このとき、「Go to this URL in a browser」が指しているURLにアクセスしgoogleアカウントを選択すると、認証コードが表示されますので、それをコピーしenterを押します。これでGoogleドライブのマウントが完了します。
YOLOv3の準備
YOLOv3の導入方法についての詳細情報は、下記を参照ください。
- https://pjreddie.com/darknet/yolo/
ツールをダウンロードする場所に移動します。本記事では、マイドライブにダウンロードします。
1 |
cd /content/drive/My Drive |
gitからツールをダウンロードします。
1 |
!git clone https://github.com/pjreddie/darknet |
ダウンロードしたフォルダに移動します。
1 |
cd darknet |
コンパイル/ビルドを実行します。
1 |
!make |
学習済みモデルのパラメータをダウンロードします。
1 |
!wget https://pjreddie.com/media/files/yolov3.weights |
サンプル画像を用いて、物体検知を実施してみます。
1 |
!./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg |
これで準備完了です。
以下のPythonスクリプトでdataフォルダに格納されたjpg画像に対して物体検知を行い、その結果をresultsフォルダに保存することができます。
1 2 3 4 5 6 7 8 9 10 11 |
import glob files = glob.glob('data/*.jpg') print(files) for index, file in enumerate(files): file = ' ' + file !./darknet detect cfg/yolov3.cfg yolov3.weights $file save_dir = ' ' + 'results/' + 'result' + str(index) !cp 'predictions.jpg' $save_dir |
出力結果
出力結果は、以下になります。
data:image/s3,"s3://crabby-images/95d4b/95d4bb612f48fd5b134bbf4aa11ea391e82e2c0d" alt=""
data:image/s3,"s3://crabby-images/6da5f/6da5f3c149a264deec70d86ea5822b8e1d5148d5" alt=""
data:image/s3,"s3://crabby-images/e343a/e343a23a7fb99a5cc2a27954261d6df45ce931fe" alt=""
data:image/s3,"s3://crabby-images/9868f/9868f5093f2ac02439891c496fd79a100f4bbabd" alt=""
data:image/s3,"s3://crabby-images/bbc4a/bbc4af9c5879bfd5da94743fe42bb0c85bc7b195" alt=""
data:image/s3,"s3://crabby-images/149a9/149a9fc0438e1bc4e7a04895579a2887d3d8fddd" alt=""
data:image/s3,"s3://crabby-images/f1021/f1021d0bf1174a7ba0b11c0a74f10606fe7e5046" alt=""
data:image/s3,"s3://crabby-images/751cf/751cf5f1fd20c1f6222e9aa465caa3163f794979" alt=""
data:image/s3,"s3://crabby-images/75681/75681ea2c448ac32a18145de1af11f7aa7cdfca0" alt=""
data:image/s3,"s3://crabby-images/a32a1/a32a1bb1857d0b43b5675a7dca535a735122bbaa" alt=""
data:image/s3,"s3://crabby-images/15dae/15daeb15dff08e4e83274f36afbe5e7ff59ab872" alt=""
data:image/s3,"s3://crabby-images/cf9a7/cf9a79fbe4a12f7e3a899513d865500f22e47793" alt=""
data:image/s3,"s3://crabby-images/c929d/c929d46838be4c87098de1d9aa264285e129e48b" alt=""
data:image/s3,"s3://crabby-images/6c8d6/6c8d69a45ace4a4de40874491a0db410c493aebf" alt=""
どうでしょうか?
様々な要素が混じる複雑な画像に対して実施してみるのもいいかもしれません。