AIを使った画像認識の仕組みや種類とは?活用事例も含めてご紹介
画像認識とは、画像に何が写っているのかをコンピューターが認識するもので、今後もさまざまな場面で活用されることが期待されている技術です。特に近年のAI技術の進歩により、画像認識が活用できる領域は大きく広がりました。そこで、本記事では画像認識の概要や仕組み、現在使われている画像認識の種類や活用事例などについてご紹介します。
画像認識とは
画像認識とは、ある画像に何が映っているのかを認識する技術のことです。人間の場合、蓄積された経験をもとに、画像に写っているものが誰なのか、何なのかを判別することができます。しかし、通常コンピューターは画像を見ても単なるピクセル(画素)の集まりとしか認識できません。
そこで、AIによるディープラーニングを使うことで、人間の「蓄積された経験」と同じように、数多くの画像データからパターンを学び、人やモノの特徴を学習し、ビッグデータをもとに画像に写っているモノや人の識別ができるようになるのです。
AIの学習方法には他にも人がルールを教える、機械学習を行うなどの方法がありましたが、ディープラーニングでは人間が先に教えていなくてもコンピューターが人間の神経回路に似せた「ニューラルネットワーク」を使って自ら学習し、画像を判別することができるようになりました。
画像認識の仕組み
画像認識の仕組みは、以下の2つの手順が使われています。
1.画像処理・抽出
いくらディープラーニングで人間と同じようにAIがビッグデータから画像を認識すると言っても、コンピューターが画像を認識する仕組みは人間と同じではありません。細かいノイズがたくさん入っていたり、暗い画像や対象物と背景の輪郭がぼけていてわかりにくかったりする画像などは認識しづらいのです。そこで、まずは以下のように対象物を認識しやすいような画像処理・抽出を行います。
画像のノイズや歪みを除去する
明るさや色の補正を行う
対象物の輪郭(エッジ)の強調をする
対象物の領域を抽出し、背景と区別する
対象物の画像データを、ピクセル単位で抽出する
ここまでして初めて、対象物を認識できた、ということになります。
2.ディープラーニングを用いた特定物体認識
次に、ディープラーニングを使って特定の物体かどうかを認識します。画像認識のディープラーニングでは、CNN(畳み込みニューラルネットワーク)というネットワークモデルがよく使われます。
CNNでは画像の特徴を抽出する「畳み込み層」と、特徴を分析する「プーリング層」があり、「畳み込み層」ではたくさんの画像を見せていくことで、「この対象にはこんな特徴がある」と学習していきます。「プーリング層」では、畳み込み層で学習した特徴の中からより優先すべき特徴を選んでひとまとめにし、一番値の大きいものを選んでいきます。このような過程を経て、「対象物が写っているのはこの画像である」と認識するわけです。
画像認識の種類
現在使われている画像認識の種類には、大きく分けて6つのものがあります。
物体認識(物体識別)
対象となる物体と同じものが画像内に存在するかどうか検証します。また、画像に映っている物体の種類、カテゴリを特定するなど、画像に映っている物体の情報を抽出するのも物体認識に含まれます。
また、物体認識は「一般物体認識」と「特定物体認識」に分かれ、「これは猫である」とまとめて認識するのは「一般物体認識」、「これはアビシニアンである」と特定の種類を認識するのは「特定物体認識」に分類されます。
物体認識は、次に述べる「物体検出」と切っても切り離せない技術です。
物体検出(物体検知)
物体検出とは、画像内に含まれるある対象の位置を検出するものです。人間が画像を見たとき、「それが何であるか」「それがどのあたりにあるか」はほぼ同時に判断していますが、コンピューターにとっては異なる処理となります。この「物体検出」ができないと、自動運転車が標識や障害物、通行人などの物体を正しく認識し、処理できないため非常に重要な技術の1つです。
画像キャプション生成
入力した画像内に何が映っていて、映っているものがどんな状況にあるかを判別し、画像の説明文を生成するものです。例えば、犬が草原で遊んでいる画像に「犬が草原で遊んでいる」と文章をつけます。文章をつけるのは「自然言語処理」によるもので、視覚に問題があり、画像を見ただけでは何かわからない人などに活用されています。
異常検知
異常検知は、主に製造業の現場で異常や不良品を見つけるのにも活用されています。まず、ライン生産させている製品の正常な状態と異常な状態をそれぞれ大量に読み込ませ、共通点や相違点をパターン学習させます。その上で、撮影された画像から製品の異常や損傷箇所、不良品を正確かつ素早く検知することで、検品作業の効率化と品質向上が図れます。
顔認識
文字通り、人間の顔の特徴を抽出し、識別する技術のことです。
例えば、目や鼻、口、顔の輪郭などは人それぞれ特徴が出やすい部分ですから、このような部分を抽出して「人間の顔である」ことを認識します。さらに、データベースに登録された顔写真と照合して、「顔認証」として使うこともできます。
文字認識
文字認識はOCRとも呼ばれ、紙に書かれた手書きの文字や、印刷された文字などを判別する技術のことです。
近年、スマートフォンアプリでも文字認識によって手書きされた紙の文字をテキストデータに変換したり、翻訳技術と組み合わせて文字にかざすだけで翻訳したりするなど、さまざまな用途で使われています。
画像認識の活用事例
ここでは、実際に画像認識がどのように活用されているかの事例を4 つご紹介します。
1. デジタル地図データの開発
カーナビゲーションや地図アプリに必要なデータとして、建物や店舗、道の形状以外にも道路情報や道路標識など、さまざまな交通情報が必要です。AIを使わない場合、担当者が現場の写真を細かく目視でチェックし、情報を記録・更新する作業が行われています。しかし、AIで停止線や横断歩道などを検出すれば、担当者の業務工数を減らし、業務効率化やヒューマンエラーの防止になるでしょう。
2. インフラの劣化点検
インフラ設備が経年劣化した際、企業は的確な対応を行わなくてはなりません。劣化箇所の点検を目視で行っていると、担当者の負担にもチェックの抜け漏れにもつながります。そこで、AIのディープラーニングを利用して劣化箇所を確実に検出することで、作業の効率化や抜け漏れを防いでいるのです。
3. 農薬散布の自動化
AI搭載ドローンの画像認識技術により、害虫や虫食いの葉の位置を特定し、必要な箇所に必要な量の農薬だけを散布する低農薬農法も行われています。害虫のいる場所にだけピンポイントで散布できるため、撒かなくても良い分の農薬を削減したり、農薬散布にかかる人手を減らしたりできます。また、低農薬という付加価値がつくことで、一般的な農産物よりも高値で取引されることもあります。
4. 自転車の危険予知
近年、自動運転車が話題になっていますが、NTQでは自転車を使うユーザーが危険な場所に近づくと通知するシステムを開発しました。事故が起こりそうになるとセンサーが情報を収集してデータベースを作成・追加するという、更新性に優れたシステムです。モバイル端末から収集されたデータをリアルタイム処理し、機械学習に基づいて急ブレーキを検出したり、急ブレーキが発生した前後10秒間のビデオを保存したりすることで、さらにセンサー精度と情報分析機能を向上させています。
このケースにもあるように、画像認識というと自社開発のイメージが強いものの、オフショアでの開発も可能で、実際に行われています。
こちらの事例について詳しくは「自転車の危険予知システムの事例(オフショア開発事例)」を、ぜひご覧ください。
まとめ:AIの画像認識技術で、業務効率化やヒューマンエラーが防げる
AIの画像認識技術を使えば、業務効率化になったり、ヒューマンエラーを防いだりすることができます。さらに、ディープラーニングの登場により、人間がコンピューターにルールを教えるなどの工程も不要になりつつあります。例えば、自動運転車や検品の効率化、顔認証や文字認識など、AIによる画像認識技術は既に身近な存在になり始めているのです。今後もますます、AIによる画像認識技術はさまざまな場面で活躍していくことでしょう。