マルチエージェントシステム Multi-Agent System/強化学習 Reinforcement learning

マルチエージェントシステムは、解析的に解くことが難しい問題、例えば、感染症のふるまいや、ある政策の導入による効果検証など、「実際にやってみない(起こってみないと)とわからない問題」に対して、非常に有効に機能する技術です。具体的には、人工知能を搭載した個性的なエージェントを仮想的な環境に作り出し、想定される事象、感染症や政策などを発生させて、どのような世界になってゆくのかをシミュレーションするものです。計算知能・マルチメディア研究室では、このマルチエージェントの研究に長く取り組んでおり、特に、近年ではDeep Mind社のAlphaGOなどのベースとなっている強化学習の技術などを取り入れることで、より精密なマルチエージェントシミュレーションのフレームワークの構築も行っております。
 以下、計算知能・マルチメディア研究室でこれまで取り扱ってきたマルチエージェントに関する研究トピックまた、輝かしい受賞実績について紹介します。

研究トピック1: インクルーシブな社会の実現(その1)

すべての人は、多様な属性やニーズを持っていることを前提として、性別や人種、民族や国籍、出身地や 社会的地位、障害の有無など、その持っている属性によって排除されることなく、誰もが構成員の一員として分け隔てられることなく活躍できる、それがインクルーシブな社会であり、我々が今後目指すべき社会でもあります。
 さて、2016年、フレームワークスの物流オープンデータコンテストという、例えば、アマゾンの膨大な品物を管理する倉庫の中で、従業員の方々が品物をピッキングする際のログデータなどを使って、なにか面白い提案をしてくださいというコンテストが開催されました。
 我々の研究室のメンバ、谷口君、宮川君、前川君の3名がチームを組み、

「視覚障害者による倉庫内ピッキング作業の協調のための進化的ロジスティクス最適化」

というテーマでエントリーしました。このテーマは、視覚障害者の方々が肉体的労働に従事することが難しい現状において、倉庫内という限定された領域であれば、健常者に変わって視覚障害者の方々も業務に従事できるであろうという仮説を立て、これがどのような世界観をもたらしてくれるのかをシミュレーションしたものになります。
 この世界観の大前提となるのは、視覚障害者の方々が倉庫内のどこにいるのかという自己位置の推定と、また視覚障害者の方々を誘導するための音声デバイス。これらは、昨今の技術を使えばカバーできると考え、我々のテーマでは取り扱わず、我々は、それらの技術が確立された上で、どのように従事者の方々を倉庫内でぶつからないように、ルーティングさせるのかというところ。これを遺伝的アルゴリズムという技術を使って、最適に経路を設計することに着目しました。

視覚障害者の目となり、最適な経路を設計・誘導

この提案する最適な経路設計の技術を使わない場合と、使った場合では、その差は圧倒的であったという結果も重要ですが、それ以上に、日本国内には約7000箇所のピッキング倉庫が存在し、それぞれの倉庫で例えば、10名の視覚障害者を雇用したと仮定すると、なんと以下のように視覚障害者の方々にとっての雇用状況が劇的に変化することなります。これまで低かった視覚障害者の就労率もおそらく同様に向上させることができると予想されます。

このような研究テーマ、みなさんどのように感じられましたでしょうか?
このテーマは、2016年のフレームワークスの物流オープンデータコンテストで高く評価され、優秀賞を頂戴することができました。本当にありがとうございました。

研究トピック2: インクルーシブな社会の実現(その2)

 みなさん、これまでの人生で一度は必ず体験したことのある満員電車。そもそも、この満員電車が発生する交通インフラに対して、なぜ抜本的な改善が行われないのだろうかと、疑問を持ったことはないでしょうか?
計算知能・マルチメディア研究室の三末君は、この満員電車および従来の交通インフラの問題点を明らかにするとともに、それらを解決するための新しい交通インフラ、まさにインクルーシブな社会を実現するための提言を行っております。
 まず従来の交通インフラ(電車)について、以下の3つの問題が挙げられます。

  1. 多様な背景を持つ人々への対応限界
     内閣府は政策として誰もが快適で活力に満ちた質の高い生活を送れる未来社会を目指す「Society 5.0」を提唱しています。しかしながら、身体に障害を持つ人や妊婦など多様な背景を持つ人々にとって、従来の電車は必ずしも便利な手段とはいえません。例えば、車椅子を使用する方が朝夕の混雑時間帯に電車を利用することは事実上困難になっており、これらの時間帯の利用を避けなければならなくなっています。同様の理由から、ベビーカーを使用する方もこれらの時間帯を避けて利用しなければならなくなっています。その他にも、車椅子を使用する方から寄せられた困りごとの具体的内容として「ホームと車両扉の段差が高くて不安であり、介助者がいない場合は利用を避けている」という意見もあります。
  2. 満員電車が与えるストレス
    日本社会においてごく当たり前に見られる満員電車は、利用者に多大なストレスを与えており、その結果、利用者の電車利用後の生産性に悪影響を与えています。この通勤手段によって労働者の生産性が異なる事実は、オーストラリアの研究チームにより明らかにされています。
  3. 混雑と渋滞による社会損失
    電車の混雑の要因として、利用者の乗降のために繰り返し行われる停車と発進を挙げらます。例えば、山手線において出発駅を上野、目的駅を品川とした場合を検討する。このとき、移動に要する時間は20分ですが、途中8つの停車駅において利用者の乗降のための停車とその前後での加減速が発生します。これらの停車と加減速の時間は全体の所要時間のかなりの割合を占めています。朝夕の混雑時には利用者の乗降に特に時間を要するため、停車時間が長くなりがちであり、それらが原因で電車の遅れや駅プラットフォーム内の混雑につながっています。したがって、停車の無い交通システムができた場合、そのシステムの利用者は従来システムを利用するよりも速く目的地まで移動できると考えられます。また、混雑による渋滞は日本の社会において大きな経済損失につながっており、これらの解消が強く求められています。


 

これらを解決するために、三末君は以下のようなtrainではなくt-laneという斬新な交通インフラを提案しております。もちろん、これは現実、実装するのは非常に難しいですが、マルチエージェントの最大の武器である、仮想的な空間を使って、もしこれが実現できたら?という問いかけにシミュレーションが見事答えてくれた事例になります。

この斬新なt-laneがもし実装されたならば、従来の山手線での移動が以下のように劇的に改善されることになります。再度、繰り返しますが、t-laneは必ずしも現実的な解ではありませんが、従来の交通インフラの問題点を解決する一つの緒として、また、車椅子を利用される方々にとって希望あふれるインクルーシブな世界観を示唆してくれていると思います。このようなドキドキする未来を、一緒に描きませんか?

研究トピック3: マルチエージェントタスクの強化学習について

2015年10月、Google DeepMindによって開発されたコンピュータ囲碁プログラムAlphaGoが人間のプロ囲碁棋士に勝利するというニュースが世界を駆け巡りました。囲碁というゲームにおいて、コンピュータが人間を超えるのはまだまだ先であろうと予想されておりましたが・・・ある限定された領域ではありますが、コンピュータが人間を超えた、そして脅威として認識されはじめた瞬間であったと思います。
 これ以降、AlphaGoのようにゲームをうまくこなすAIの研究がさかんに行われるようになり、そこで強化学習というAIを試行錯誤的に学ばせる枠組みについても着目されるようになってきました。下図に示すような、ゲームをプレイするAIや、倒立振子などの制御の問題など、様々なフレームでの研究が行われ、日々発展しております。

計算知能・マルチメディア研究室では、強化学習がマルチエージェント型のタスクに関して、まだ不十分であるところに着目して、研究を行っております。具体的に言えば、パックマンでいうところの、敵側の立場で考えたとき、複数のメンバが協調してパックマンをやっつけることがタスクになるのですが、これがなかなか不安定でうまくゆかない問題を解決することを試みております。
 この研究に取り組んだ、唐君は、以下の2つの手法「Prioritized Batch Data」と「Distributed Multi-Agent Architecture」を提案し、解決を行いました。この研究結果は、情報処理学会で発表を行い、高く評価され受賞をしております。

研究トピック4: 教室配置の最適化について

 学生達を仮想空間内に配置し,時間割および教室配置に基づき移動させ,移動時間が最小になるようなアルゴリズムを提案するのが本プロジェクトです。エージェントの最適化には、生物の進化過程を模擬した遺伝的アルゴリズム、そしてエージェントのふるまいについては、実空間の動画像に基づいてモデリングするアプローチを行っており、今後は、筑波大学内のカリキュラム編成のデファクトスタンダーと、さらには、コンピュータグラフィクスに関連する映画やゲーム業界の標準ライブラリを作り上げてゆこうという野心的な計画を練っています。

マルチエージェント

以下の動画(youtube)は、筑波大学の第3エリアのA棟の学生の動きを実際に再現したものです。

さらに局所を拡大すると、こんな感じになっています。実際の学生さんの衝突回避の様子なども、リアルに再現しているのがわかると思います。

本プロジェクトをがんばって遂行してくれた播磨君が、そのオリジナリティを認められ、合同エージェントワークショップ and シンポジウム2014(JAWS2014)において、IEEE Young Researcher Awardを受賞しました。

おすすめの記事