Pythonで画像認識してみたいです。
このような要望にお応えします。
今回は、YOLOv4の学習済みモデルを用いた物体検知をします。
下記のサイトを参考にさせていただきました。
- https://github.com/AlexeyAB/darknet
- https://github.com/theAIGuysCode/YOLOv4-Cloud-Tutorial
- http://pjreddie.com/darknet/yolo/
- https://arxiv.org/abs/2004.10934
YOLOv4について
YOLOv4は、入力画像から物体の位置と種類を検出することができます。
YOLOv4の手法等の情報は、下記の論文を参照ください。
YOLOv4: Optimal Speed and Accuracy of Object Detection
- https://arxiv.org/abs/2004.10934
Google Colaboratoryの準備
・Googleのアカウントを作成します。
・Googleドライブにアクセスし、「新規」→「その他」から「Google Colaboratory」の順でクリックします。そうすると、Colaboratoryが起動します。
・Colaboratoryが起動したら、以下のコマンドをCoalboratoryのセルに入力し実行します。
そうすることで、Googleドライブをマウントします。
1 2 |
from google.colab import drive drive.mount('/content/drive') |
・実行後、認証コードの入力が促されます。このとき、「Go to this URL in a browser」が指しているURLにアクセスしgoogleアカウントを選択すると、認証コードが表示されますので、それをコピーしenterを押します。これでGoogleドライブのマウントが完了します。
YOLOv4の準備
YOLOv4の導入方法についてのより詳細な情報は、下記を参照ください。
- https://github.com/AlexeyAB/darknet
Google Colaboratoryの「ランタイム」→「ランタイムのタイプ変更」でGPUを選択します。
ツールをダウンロードする場所に移動します。本記事では、マイドライブにダウンロードします。
1 |
cd /content/drive/My Drive |
gitからツールをダウンロードします。
1 |
!git clone https://github.com/AlexeyAB/darknet |
ダウンロードしたフォルダに移動します。
1 |
cd darknet |
GPUとOpenCVを利用するようにmakeファイルを編集します。
1 2 3 4 |
!sed -i 's/OPENCV=0/OPENCV=1/' Makefile !sed -i 's/GPU=0/GPU=1/' Makefile !sed -i 's/CUDNN=0/CUDNN=1/' Makefile !sed -i 's/CUDNN_HALF=0/CUDNN_HALF=1/' Makefile |
コンパイル/ビルドを実行します。
1 |
!make |
YOLOv4学習済みのパラメータをダウンロードします。
1 |
!wget https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov4.weights |
下記のコマンドを実行することでdataフォルダ内のperson.jpgを読み込み、物体検知した結果がpredictions.jpgとして保存されます。
1 |
!./darknet detector test cfg/coco.data cfg/yolov4.cfg yolov4.weights data/person.jpg |
これで準備完了です。
以下のPythonスクリプトでdataフォルダに格納されたjpg画像に対して物体検知を行い、その結果をresultsフォルダに保存することができます。
1 2 3 4 5 6 7 8 9 10 11 |
import glob files = glob.glob('data/*.jpg') print(files) for index, file in enumerate(files): file = ' ' + file !./darknet detector test cfg/coco.data cfg/yolov4.cfg yolov4.weights $file save_dir = ' ' + 'results/' + 'result' + str(index) !cp 'predictions.jpg' $save_dir |
出力結果
出力結果は、以下になります。
data:image/s3,"s3://crabby-images/e8e09/e8e094de00e6955292224ab1b436f4cc53f1f764" alt=""
data:image/s3,"s3://crabby-images/03a5c/03a5cd1ab6e10c13db618c69d77fad84e08b7885" alt=""
data:image/s3,"s3://crabby-images/f7b84/f7b8416e6a8c325451830b7d5387094625706683" alt=""
data:image/s3,"s3://crabby-images/f7887/f788786d805ad05d013745ed537851f1166a5d95" alt=""
data:image/s3,"s3://crabby-images/423ae/423ae3194584026a929826bef639ba0b96f498df" alt=""
data:image/s3,"s3://crabby-images/db7b8/db7b84137f501ead767894e66e6b9de9c0950063" alt=""
data:image/s3,"s3://crabby-images/29dd1/29dd11c4bb26551e51f29abfc16467861f956b35" alt=""
data:image/s3,"s3://crabby-images/7a6f6/7a6f69f23737638bbb7e2085ead2389eebb2e713" alt=""
data:image/s3,"s3://crabby-images/d1485/d148530f1f62481c1b47482751bde89f5e39b9bf" alt=""
data:image/s3,"s3://crabby-images/ac5c0/ac5c045862288652f57bcb30598a80f5d846cebc" alt=""
data:image/s3,"s3://crabby-images/b2979/b29797a5adbcd376db92206712d1dc63aa064908" alt=""
data:image/s3,"s3://crabby-images/de730/de730c86566473f3b2972be7b8f773b573ea5fa6" alt=""
data:image/s3,"s3://crabby-images/3d3fe/3d3fe8fc17f3707130026844455fbb233ef0dc52" alt=""
data:image/s3,"s3://crabby-images/c8270/c8270aabc2a99f9fd795acc48c5cfc8f0f0619fd" alt=""
data:image/s3,"s3://crabby-images/6a0ef/6a0ef6a2d8bad60b16456b123a4feeb48748a1e3" alt=""
data:image/s3,"s3://crabby-images/f4c21/f4c21ef933dbf6e68e41f9d0f80a3373f45d77eb" alt=""
data:image/s3,"s3://crabby-images/dce0a/dce0aa57fc7b03188abcfaf3e3bbe1ea7f7f9f85" alt=""
data:image/s3,"s3://crabby-images/e3506/e3506046e39ae7ea37f195c6db46b9e36455faa8" alt=""
どうでしょうか? 様々な要素が混じる複雑な画像に対して実施してみるのもいいかもしれません。