AI
2024/10/28
古川 直輝

深層学習を活用した画像検知について

近年、AI(人工知能)の進歩は私たちの生活を大きく変えています。その中でも、画像を処理して物体を検出・認識する「画像検知技術」は、特に注目されています。

はじめに

本ブログでは、深層学習を基盤とした画像検知技術の基本概念や主な手法について解説し、さらに最新の技術トレンドや応用事例を紹介していきます。深層学習に興味がある方や、これから画像認識技術を学びたい方に向けて、わかりやすく解説していきますので、ぜひ最後までご覧ください。

物体検知とは

物体検知とは「画像や動画から特定の物体の位置・種類・情報を検知する技術」です。


人間は画像からものの位置とそれが何であるかという判断を即座に行えますが、それをコンピューターで実現する方法が物体検知です。

物体検知と物体認識の違い

物体認識は「画像内に何が写っているか」を特定する技術に対して、


物体検知は「何がどこに写っているか」を特定する技術です。


物体検知の仕組み

物体検知は以下の手順で行われています。


①学習データに対してアノテーションをつける


物体検知では「画像のどこにモノが写っているのか」と「そのモノが何か」を認識する必要がありますので、この2つを学習させるために、画像に写っている物体の範囲を四角で囲み、さらにその四角それぞれに何が映っているか意味付けする作業を行います。この四角の位置、大きさ、意味付けをまとめて「アノテーション」と呼びます。


②学習する


アノテーションしたデータを使って、物体の写る位置と写っている物体の特徴を覚え込ませていきます。まずは近い色のピクセルを統合していくという手法で画像の中から物体が写っていると思われる四角の領域をいくつも設定します(領域抽出)。この設定された四角形の領域はバウンディングボックスといいます。


③バウンディングボックスを一つ決定する


領域抽出ができたら、バウンディングボックスで画像を切り抜き、画像分類を行ってどのカテゴリなのかを判断します。領域抽出によって同じ物体に対して複数のバウンディングボックスが設定されてしまいます。これを対処するために、各バウンディングボックスは特定したい物体が映っている確率を計算します。バウンディングボックス同士が一定以上重なっている場合は信頼度スコアを比べ、低いものは削除していきます。


④性能を評価する


物体検知モデルの性能を測る際はmAPという指標を用います。得られた結果の信頼度、予測と正解の領域がどれくらい重なっているかを総合してカテゴリごとに求めた平均です。

物体検知のアルゴリズム

物体検知は以下のように進化してきました。



⇨ 以降では、YOLODETRについて紹介します。

YOLO

YOLOは2016年に発表された物体検知アルゴリズムです。当時の物体検知は、非常に計算リソースを必要とし、速度と精度のトレードオフが課題となっていました。R-CNNでは1 枚の画像から物体検出を行うには約 47 秒もかかっていました。YOLOはこの状況を打開するために登場し、従来の物体検知アプローチとは一線を画す革新的な手法を導入しました。2016年以前、物体検知の主流モデルは主にR-CNN系の手法でした。これらのモデルは、高精度で物体を検出することに成功しましたが、速度の面で課題がありました。このような背景の中、YOLOが登場しました。YOLOの最大の革新は、物体検知を1度のニューラルネットワークの推論で完結させるという点です。


YOLOの特徴


・画像全体に対して一回の処理で物体を検出する。


・従来の物体検知手法と比較して非常に高速


・画像全体を一度に見るため、複数の物体が混在するシーンでも強力


・シンプルなネットワーク構造を持ち、実装が比較的簡単である。


 


YOLOのアルゴリズム



YOLOによる物体検知の手順


1.入力画像をs×sのグリッドセルに分割する。


2.各グリッドセルは物体を予測し、いくつかのバウンディングボックスを提案する。各ボックスには、物体のクラスと信頼度スコアが付与されます。


3.複数のボックスが同じ物体を検出するのを防ぐために、重複するボックスを削除し、最も信頼度スコアが高いボックスを選択する。

DETR

DETRはTransformerを物体検出にはじめて取り入れたもので2020年5月にFacebookから発表されました。DETRは人間による手作業を大幅に減らすことに成功し、End-to-Endモデルに近く誰でも利用しやすいモデルになっています。また、一枚の画像内にあるオブジェクト間の関係性を利用する形で物体検出が可能になりました。


例えば「水着があるなら、一緒に写っている板のようなものはサーフボードである確率が高い」など


DETRの何がすごいの???


Transformerを取り入れることで画像中のオブジェクトに関する情報を抽出し、アンカーやRPNを廃止しています。自己注意機構(Self-Attention)は、Transformerの中心的な要素です。この機構を使うことで、DETRは画像全体の任意の2点間の依存関係を学習できます。これにより、画像内の異なる物体や背景に対する理解を、より広い視野で一度に捉えることが可能になりました。


 


DETRの実装手順


1.CNNで画像をTransformerに入力するための特徴ベクトルに変換します。


2.Transformerエンコーダー:画像内のすべての部分を互いに関連付けて学習します。


3.Transformerデコーダー:検出された物体の位置とカテゴリを出力します。


4.オブジェクトクエリ:物体のクラスとバウンディングボックスの位置を推定します。


5.損失関数:各クエリの予測が正しい物体とペアリングされます。

物体検知の最新モデル

近年物体検知技術は大きな進展を遂げており、最新モデルが注目されています。


DiffYOLO


DiffYOLOは、低品質なデータを用いても高精度な検出が可能で、データ収集のコストを削減することに寄与する技術です。


YOLOv8


YOLOv8は、YOLOシリーズの最新バージョンで、物体検出だけでなく、セグメンテーションや姿勢推定も可能な多機能性を備えています。


RT-DETR


RT-DETRは、DETRアーキテクチャを基にしたリアルタイム物体検出モデルで、特に速度と精度のバランスを取るために設計されています。

物体検知の事例

事例①画像認識技術を活用した無人コンビニ


2018年アメリカ・シアトルでAmazonが運営する「Amazon Go」というコンビニがオープンしました。事前に専用のアプリをスマホなどにインストールしておき、入店時に専用アプリのQRコードを使って入店します。入店後は自分のカバンに商品を入れてもレジを通さずに会計が完了するため、財布を出す手間もなくそのままお店を出られます。店内にあるセンサーやカメラから顧客や商品の流れを追跡して、誰が何を手に取ったかを認識しているのです


 


事例②画像認識技術によるコーチング


福岡ソフトバンクホークスは、ライブリッツ社の「野球選手AIトラッキングシステム」を活用してチーム戦略に活かしています。同システムは、高解像度カメラで撮影された投球・守備・打撃・走塁といった動作を一括でデータ化して分析し、画像認識によってデータ化するものです。、画像認識によって取得したデータをAIで分析することで科学的な戦略が立てられるのです


 


事例③画像認識技術による除草剤散布の自動化


Blue River Technology社は画像認識技術を用いて、雑草だけにピンポイントで除草剤を噴霧する技術を開発しました。これにより、今までは無駄に撒いていた除草剤を必要な量だけ、必要な場所に、特定の種類の植物に撒くことができ、コスト削減と環境問題の両方をクリアすることができます。

まとめ

画像検知技術は、今後も深層学習の進化に伴い、さらなる進歩を遂げることでしょう。私たちの日常生活やビジネスの中で、AIによる画像認識はますます身近な存在となり、社会全体に影響を与える技術として期待されています。これからも、この分野の動向に注目し、新たなイノベーションに触れていきましょう。

New call-to-action