AIの重要課題である強化学習をレーザーカオスを用いて超高速に実現～周波数割当て等で瞬時の適応を可能に～

2017/8/22 14:00

情報通信研究機構（NICT）、埼玉大学、慶應義塾大学SFC研究所は、半導体レーザーから生じる光カオスを用いて、適応速度 1GHzを実現する超高速フォトニクスを応用した強化学習に世界で初めて成功しました。無線通信における周波数の瞬時の割当てなど、AIやIoTの基盤技術として貢献することが期待されます。

2017年8月22日

国立研究開発法人情報通信研究機構（NICT）

国立大学法人埼玉大学

慶應義塾大学SFC研究所

AIの重要課題である強化学習をレーザーカオスを用いて超高速に実現

～周波数の割当てなどで「瞬時の適応」を可能に～

【ポイント】

■　レーザーから生じる光カオスを用い、AIの基本的な問題の一つの「強化学習」を超高速に実現

■　光の高速性を生かし、自然界の物理現象を用いて瞬時の“意思決定”を実現。優れた性能を確認

■　周波数の瞬時の割当てなど、AIやIoTの基盤技術としての貢献に期待

　国立研究開発法人情報通信研究機構（NICT、理事長: 徳田英幸）の成瀬誠主任研究員、国立大学法人埼玉大学（学長: 山口宏樹）大学院理工学研究科内田淳史教授、慶應義塾大学大学院政策・メディア研究科（研究科委員長: 清木康）金成主特任准教授らは、半導体レーザーから生じる光カオス（以下レーザーカオス）を用いて、適応速度 1GHz（ギガヘルツ: 1秒間に10億回）を実現する超高速フォトニクスを応用した強化学習に世界で初めて成功しました。

　NICTらは、光の高速性に着目し、半導体レーザーにおいて生じるカオス現象が生み出す乱雑な信号と、独自に開発した強化学習方式を組み合わせることで、「当たり確率の未知な2台のスロットマシンから当たり確率の高い台を選ぶ問題」（2本腕バンディット問題）を、光の極限性能を生かし、高速に、物理的に解決をすることに成功しました。レーザーカオス現象の超高速性により、情報が入力されてから出力されるまでの時間（レイテンシ）が 1ns（ナノ秒: 10億分の1秒）という高速な意思決定が確認され、また、仮想的に生成した高速な擬似乱数（カラーノイズ）に比べても優れた性能を示すことが確認されました。

　より高速なコンピューティングのため計算資源を瞬時に調停するアービトレーションや無線通信における周波数の瞬時な割当てなど、AIやIoTの基盤技術として大きく貢献することが期待されます。なお、本研究成果は、「Scientific Reports」に日本時間8月18日（金）18時に掲載されました。

【背景】

　現代の人工知能（AI）を支える機械学習では、画像認識などに優れた能力を発揮する「深層学習」と呼ばれる技術に並び、「強化学習」と呼ばれる技術が重要です。強化学習とは、未知な環境で試行錯誤をしながら学習を行う方法であり、強化学習の中心となる課題に、多数のスロットマシンが並んだカジノで、儲けを最大にするにはどのようにするとよいか？という問題があります。儲けを最大化するには、「当たり台」を見つけるための試行錯誤＝「試し打ち」をしなければなりません。しかし、過剰な試し打ちは損失になることがあり、当たり台が時々刻々と変わることもあり得ます。逆に、早々に試し打ちを打ち切ってしまうと、肝心の当たり台を見逃しているかもしれません。このように、「探索」と「決断」に難しいジレンマが存在しています。この問題は「多本腕バンディット問題」として知られ、ワイヤレス通信における周波数の割当て、データセンターでの計算資源の割当て、ロボット制御、Web広告など、非常に重要な応用の基礎になっていることから、熱心な研究が行われています（図1）。

　この問題の解決には、当たり台の探索において、「ランダムに」台を選ぶことが不可欠です。例えば、プレイの序盤では「ランダムに」選び、時間の経過とともに、それまでの勝率を参考に選んでいく方法などが知られています。

　これらの従来手法では、ランダムに台を選ぶために、コンピューター上で生成した「擬似乱数」と呼ばれる数を用いています。しかし、擬似乱数は、コンピューター上で計算手順（アルゴリズム）に基づいて作られるため、高速に生成することは困難です。また、乱数の「質」にも限界があります。一方で、昨今発展の著しいAIに見られるように、コンピューティングを、より高速に、効率的に行うことは重要であり、ロボティクスやITを使った新たな金融サービスであるFintech（フィンテック）などの新たな応用の出現を受けて、従来の強化学習の限界を克服する高速な原理と技術が強く望まれています。

　NICTらは、コンピューター上のアルゴリズムを用いるのではなく、「自然界の物理現象を直接用いた強化学習」を世界に先駆けて提案し、これまでに、単一光子を用いた方式の実現に成功していました。

【今回の成果】

　今回の成果は、光の高速性というメリットを生かし、新たに、レーザーを用いた時に生じるカオスを超高速な強化学習に応用できることを世界に先駆けて実証したものです。

　本研究では、半導体レーザーを用いた時に生じる光の「カオス現象」を用いています。半導体レーザーから出射する光を、鏡で反射させてレーザーに戻すと、レーザーの動作が不安定化しカオスが生じます。このような不安定化を避けるために、通常、レーザーでは光の逆戻りが起きないような工夫がなされています。しかし、近年では、この現象を、逆に、積極的に生かして、毎秒1兆ビットを超える超高速な物理乱数生成技術などに展開されています。本研究では、このレーザーカオスを用いて、2台のスロットマシン（以後、「スロットマシン1」「スロットマシン2」）から、「当たり台」（＝当たり確率が高い台）を選ぶ問題の超高速な解決を実現しました。半導体レーザーから生成したレーザーカオス光を高速にサンプリングし、「閾値」との大小判定のみで意思決定を行います。ここで、閾値を「過去の戦歴」に基づいて上げ下げすることが重要であり、以前の成果でも用いた「綱引き原理」と呼ばれている独自の方式を応用しています（図2上）。

　計測した信号レベルが「閾値より大きいとき」には「スロットマシン1」を選択すると意思決定し、「小さいとき」には「スロットマシン2」を選択すると意思決定します。閾値が十分大きいときは、計測される信号レベルは閾値より小さくなる場合が多くなり「スロットマシン2」を選択するケースがほとんどとなります。ところが、カオスの乱雑さのために、時として、計測する信号レベルが閾値よりも大きくなることがあり、逆のスロットマシン「スロットマシン1」を選択することも生じます。

　このような、カオスから生まれる特長が、「当たり台を速やかに発見する」ことに生かされた結果、適応速度 1 GHzを実現する超高速フォトニクスを応用した超高速な強化学習が実証されました。また、仮想的に生成した高速な擬似乱数（カラーノイズ）に比べても優れた性能を示すことも確認されました。

【今後の展望】

　強化学習は、これまで計算機上のアルゴリズムとして実現されてきましたが、高速化には大きな壁がありました。本研究によって、レーザーカオスが強化学習という人工知能分野に貢献できると実証されたことで、様々な展開が期待されます。まず、レーザーカオスを用いた方式は、広帯域性という光のメリットを生かしており、従来技術では不可能な高速性が実現できます。また、半導体レーザーなど成熟したフォトニクス技術を用いているため、安定性や集積性に優れたシステムの実現が可能です。応用面では、高速・低レイテンシの実現が強く期待されている、システムのアービトレーション（調停）応用や超高速取引での意思決定としてフィンテックなどへの展開を検討する予定です。

　本研究の一部は日本学術振興会科学研究費補助金基盤研究（A）『ナノ光学とレーザーカオスを用いた超高集積・超高速意思決定の創製（JP7H01277）』（研究代表者: 成瀬誠（NICT）、研究分担者: 赤羽浩一（NICT）、堀裕和、内山和治（山梨大学）、金成主（慶應義塾大学）、西郷甲矢人（長浜バイオ大学）、岡村和弥（名古屋大学））、同挑戦的萌芽研究『単一光子を用いた意思決定機能構築の研究（JP15K13387）』（研究代表者: 成瀬誠（NICT）、研究分担者: 金成主（慶應義塾大学）、高橋泰城（北海道大学））、同基盤研究（B）『複雑系フォトニクスに基づく超高速物理乱数生成の高機能化（JP16H03878）』（研究代表者: 内田淳史（埼玉大学）、研究分担者: 菅野円隆（福岡大学））の支援を受けています。

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。

プレスリリース原文(PDF)