総務省トップ > 政策 > 白書 > 令和元年版 > AIに関する基本的な仕組み
第1部 特集 進化するデジタル経済とその先にあるSociety 5.0
第3節 ICTの新たな潮流

(1)AIに関する基本的な仕組み

AIと機械学習・深層学習の関係

近時、様々なメディアにおいて「AI」の語に触れない日はないほど、AIはブームとなっているといえる。しかしながら、平成28年版情報通信白書で述べたとおり、AIに関する確立した定義はないのが現状である。あえていえば、「AI」とは、人間の思考プロセスと同じような形で動作するプログラム、あるいは人間が知的と感じる情報処理・技術といった広い概念で理解されている。「AI」、「機械学習」、「深層学習(ディープラーニング)」といった言葉がよく使われるようになっているが、その関係は図表1-3-2-1のとおりである。

図表1-3-2-1 AI・機械学習・深層学習の関係
(出典)各種公表資料より総務省作成

近時のAIブームの中心となっているのは、「機械学習」である。機械学習(マシーンラーニング、ML)とは、人間の学習に相当する仕組みをコンピューター等で実現するものであり、一定の計算方法(アルゴリズム)に基づき、入力されたデータからコンピューターがパターンやルールを発見し、そのパターンやルールを新たなデータに当てはめることで、その新たなデータに関する識別や予測等を可能とする手法である。例えば、大量のニンジンとジャガイモの写真をコンピューターに入力することで、コンピューターがニンジンとジャガイモを区別するパターンやルールを発見する。その後は、ニンジンの写真を入力すると、それはニンジンであるという回答が出せるようになるものである。AIブームの中で、機械学習がAIとほぼ同義で使われている場面が多いが、あくまでもいわゆるAIの手法の一つとして位置付けられるものである32

また、機械学習の手法の一つに、「深層学習」(ディープラーニング、DL)があり、近時のAIブームのきっかけとなった手法として特に注目されている。深層学習とは、多数の層から成るニューラルネットワークを用いて行う機械学習のことである(図表1-3-2-2)。深層学習という概念は、あくまでもこの多層的なニューラルネットワークに着目したものであるが、深層学習により、コンピューターがパターンやルールを発見する上で何に着目するか(「特徴量」という。)を自ら抽出することが可能となり、何に着目するかをあらかじめ人が設定していない場合でも識別等が可能になったとされる。例えば、前述の機械学習の例では、あらかじめ人間がコンピューターに「色に着目する」という指示を与えることで、より円滑にニンジンとジャガイモの識別が可能となる。深層学習では、この「色に着目する」とうまくいくということ自体も学ぶことになる。深層学習は、あくまでも機械学習の手法の一つであるが、このように特徴量を人間が指示することなく自ら作り出す点が大きなブレークスルーであるとされる33。他方、深層学習においては、AIがどのような根拠により判断を行ったかを人間が理解することが難しいという点も指摘されている。

図表1-3-2-2 深層学習の仕組み
(出典)各種公表資料より総務省作成

前述のヒントンの事例や「キャットペーパー」、そしてAlphaGoで注目を集めたAIは、「深層学習という手法を使った機械学習というAI」ということになる。このようなAIが近時注目されるようになった理由としては、後述のGPUをはじめとするコンピューティング資源の高度化により計算能力が向上してきたこと、計算能力向上とインターネット上のデータ流通が進むことでビッグデータが利用できるようになってきたこと、そしてこれらを背景に研究が進んできたことが挙げられる。

機械学習ではどのようにデータを活用するのか

機械学習においては、データが重要であるといわれる。それでは、データは具体的にどのようなプロセスで、どのように活用されるのだろうか。この点を理解する上では、次のことが重要となる。

まず、機械学習には大別して「学習」と「推論」の2つのプロセスがあり、基本的にそれぞれのプロセスで異なるデータを用いることとなる。学習とは、入力されたデータを分析することにより、コンピューターが識別等を行うためのパターンを確立するプロセスである。この確立されたパターンを、「学習済みモデル」という。推論とは、学習のプロセスを経て出来上がった学習済みモデルにデータを入力し、確立されたパターンに従い、実際にそのデータの識別等を行うプロセスである。

このように、機械学習で活用するデータには、学習のプロセスで用いるものと、推論のプロセスで用いるものの2種類がある。ここでは便宜的に、前者を「学習用データ」、後者を「推論用データ」と呼ぶ。ただし、推論用データを使って推論を行うことが、追加的な学習となって学習済みモデルが改善するケースもある。

次に、学習用データと推論用データは、学習・推論に適した形とする必要がある。両者はいずれも、既に自ら持っているデータや、自ら新たに収集するデータのほか、外部から入手したデータを活用することができ、例えば図表1-3-2-3のようなデータセットが公開されている。しかしながら、これらデータは必ずしもそのまま学習用・推論用に活用できるわけではない。例えば、ニンジンの画像を学習させようとしているときに、画像にミカンも写り込んでいれば、望むような学習や推論が出来ない可能性がある。このため、ミカンを画像から除去するといったクレンジングが必要となる。また、少ない画像データで十分な学習をさせる場合には、画像の左右反転等によりデータを増やすというデータ拡張が必要となる場合がある。

図表1-3-2-3 公開されているデータセットの例
(出典)総務省「AIネットワーク社会推進会議AI経済検討会」資料を基に作成

これらを学習用・推論用データの加工あるいは前処理といい、この部分が機械学習にデータを活用する際のハードルとなることがあり得る。特に、後述の「教師あり学習」においては、学習用データにラベルを付けること(アノテーション)が必要であり、その分データ活用に当たっての難易度は高くなる。このように、機械学習に使用するためには、単にデータを収集すれば良いのではなく、「使えるデータ」を用意することが必要である点に留意が必要である。

以上の機械学習におけるデータ活用のプロセスを整理したものが、図表1-3-2-4である。

図表1-3-2-4 機械学習におけるデータ活用のプロセス
(出典)総務省「AIネットワーク社会推進会議AI経済検討会」資料を基に作成

機械学習の3つの学習法―「教師あり学習」「教師なし学習」「強化学習」

前述のGoogleによるネコの画像の識別が大きなインパクトを与えたのは、学習用データとして用いたネコの画像に、「これはネコである」という情報を与えなかったにもかかわらず、ネコとそれ以外の識別を行うことができたからである。このような学習法を、「教師なし学習」という。

機械学習の学習法は、「教師あり学習」「教師なし学習」「強化学習」に大別される(図表1-3-2-5)。

図表1-3-2-5 機械学習の種類
(出典)総務省「AIネットワーク社会推進会議AI経済検討会」資料を基に作成

「教師なし学習」においては、正解のラベルを付けない学習用データが用いられる。すなわち、それがネコであるという情報は与えずネコの画像のデータを入力して学習させる。学習済みモデルは、推論用データとして動物の画像を入力されたとき、それがネコと呼ばれるものであるかどうかは判別できないものの、ネコと他の生き物とを区別できる。このような特徴から、教師なし学習は「クラスタリング」による顧客のグループ化といった用途に用いられる。

「強化学習」においては、コンピューターが一定の環境の中で試行錯誤を行うことが学習用データとなり、行動に報酬を与えるというプロセスを繰り返すことで、何が長期的に良い行動なのかを学習させる。例えば、二足歩行ロボットが歩く速度や脚の曲げ方について試行錯誤を行い、長い距離を歩いた場合に報酬を与えるといったことを繰り返し、最終的には倒れずにスムーズな歩行ができることになる34

これらの学習法は、機械学習の一種である深層学習と組み合わせることが可能である。例えば、強化学習と深層学習を組み合わせたものが深層強化学習であり、「キャットペーパー」やAlphaGoとその後継プログラム等に使われている。また、教師あり学習と教師なし学習を組み合わせた、「半教師あり学習」も利用されてきている。



32 機械学習以外のAIとしては、例えばエキスパートシステムがある。

33 この点を指摘しているものの例として、松尾豊(2015)『人工知能は人間を超えるか』がある。

34 前述のAlphaGoは更に進化を続けているが、最新のAlphaZeroでは、人間同士の対局棋譜の学習を全く行わない強化学習により、短時間で当初のAlphaGoをはるかに上回る強さを実現できるものとなっている。

テキスト形式のファイルはこちら

ページトップへ戻る