スプリングセミナー2024：深層強化学習

（※募集は締め切りました※）

概要

本講座は、Deep Learningを用いた強化学習に特化した全7回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾・岩澤研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。
深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデルまで、深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

●学んだ技術の適用想定分野

ロボット制御，システム制御の自動化、ゲームAI、マルチエージェントシステム、バイオインフォマティクス、分子設計、広告最適化，物理シミュレーション、交通工学、金融

なお、本セミナーは完全オンラインで実施いたします。

ブラウザのみ必要

必要なものはWebブラウザのみです。講義ではGoogle colabを利用し、演習を行います。

演習中心で効率良く短期習得

本プログラムの最大の特徴の一つは、全てのトピックについて，演習を中心に構成されている点です。実際に手を動かしながら理解を進めることで、効率よく学習することができます。

モデルの学習

Deep Learning技術では、モデルが学習する様子を観測しながらパラメータを調整することで、アプリケーションに応じたパフォーマンスの最大化を図ることが非常に重要です。この一連の流れを全ての演習で経験することで、重要な要素を身につけられます。

松尾研究室がコンテンツ作成

実践型のデータサイエンティスト育成講座およびDeep Learning講座を6年以上公開運営し、のべ6,000人以上の人材を育成してきた東京大学松尾研究室がコンテンツを監修・開発しました。

各講座

第1回強化学習基礎・離散制御・ゲームAI
（担当講師：今井）

①基本的な強化学習アルゴリズムの復習〜深層強化学習の導入（価値に基づく手法・方策勾配法・DQN）
②主要ベンチマークの強化学習アルゴリズムと発展
③ゲームAI・他分野への強化学習応用

第2回動的計画法
（担当講師：北村）

① 行列形式のマルコフ決定過程
② 動的計画法
③ 正則化と誤差頑健性

第3回連続値制御
（担当講師：北村）

① 連続値制御強化学習アルゴリズム

第4回モデルベース強化学習と世界モデル
（担当講師：佐藤）

① ロボット学習
② モデルに基づく制御
③ モデルベース強化学習
④ 強化学習の観点からみた世界モデル

第5回Control as Inference
（担当講師：谷口）

① Control as Inference

第6回オフラインデータを利用する手法
（担当講師：高城）

① 模倣学習
② オフライン強化学習

第7回応用を見据えた近年の発展的話題
（担当講師：高波・ソニーリサーチ河本様）

①基盤モデルとロボティクス
② (特別講義)レーシングシミュレーションゲーム「グランツーリスモ」における連続値強化学習の応用

企画

監修・講師・教材作成

松嶋達也

東京大学大学院工学系研究科
松尾・岩澤研究室

今井翔太

東京大学大学院工学系研究科
技術経営戦略学専攻

北村俊徳

東京大学大学院工学系研究科
技術経営戦略学専攻

谷口尚平

東京大学大学院工学系研究科
技術経営戦略学専攻

高波亮介

東京大学大学院工学系研究科
技術経営戦略学専攻

佐藤誠人

奈良先端科学技術大学院大学
先端科学技術研究科

髙城頌太

東京大学大学院工学系研究科
技術経営戦略学専攻

講師（ゲストスピーカー）

河本献太

株式会社ソニーリサーチ

TA

登坂充

東京大学大学院新領域創成科学研究科
メディカル情報生命専攻

運営

大牧信介

東京大学松尾・岩澤研究室職員

關悠里子

東京大学松尾・岩澤研究室職員

大江奈保子

東京大学松尾・岩澤研究室職員

日程

募集開始	2024/1/12（金）
募集締切	2024/1/24（水）23:59
選考結果	2024/2/2（金）19:00までに、結果を応募者全員にメールで連絡します。

第1回（講師：今井）	2024/2/8（木）14:00〜16:00
第2回（講師：北村）	2024/2/15（木）10:00〜12:00
第3回（講師：北村）	2024/2/15（木）14:00〜16:00
第4回（講師：佐藤）	2024/2/22（木）14:00〜16:00
第5回（講師：谷口）	2024/2/29（木）14:00〜16:00
第6回（講師：高城）	2024/3/7（木）14:00〜16:00
第7回（講師：高波・ソニーリサーチ河本様）	2024/3/14（木）14:00〜16:00
最終課題締切	2023/3/31（予定）

募集要項

本セミナーは、ライブ配信される講義映像を、各人が自宅等で視聴・演習していただく形式です。
- 各講義日の14:00〜16:00（一部異なる開催時間の講義日あり）にライブ配信します。ライブ配信では、リアルタイムに質問を受け付けます。
- ライブ配信への参加方法など詳細については、受講が決定された方にご連絡いたします。
対象：学生（中学生〜大学院生。東京大学以外の学生も受講可能です）
※社会人学生も受講可能。ただし大学生と社会人学生の場合、学士以上の学位取得ができる学生が対象（科目履修生等は対象外）
（本講座は公開講座であり、大学から単位は出ません。）
受講料はかかりません。

参加条件

深層学習／Deep Learningの基礎知識を備え、基礎的な実装が自身でできること
毎回の講義を確実に視聴できること
課題に取り組む時間を十分に作れること
応募フォーム内にある質問に回答できる方

留意事項・お知らせ

本セミナーには最終課題があります。各講義と最終課題の提出物を提出し基準以上の評価を得ることで修了となります。最終課題に取り組む時間を十分に用意してください。
- 最終課題の問題は「講義（と演習）で扱った内容を発展させたプロジェクトを計画・実験し、結果とともに報告してください」を予定しています。
講義日程・内容は変更になる場合がございます。

応募フォーム

ご自身に当てはまる方のボタンをクリックし、応募をおこなってください。

【申し込み方法の詳細・よくあるご質問はこちら】

※募集を締め切りました※
多数のご応募ありがとうございました。

申し込み締切：2024年1月24日（水） 23:59

【重要】

受講可否メール等が迷惑メールフォルダに入ってしまう事例が多数発生しています。
下記2点をご対応いただいていない場合、「メールが届かない」とのお問い合わせは対応いたしかねます。

<@mail.edu.omnicamp.us>, <@weblab.t.u-tokyo.ac.jp>からのメールが「迷惑メールフォルダ」に入らないように必ず設定をお願いします。
結果通知の日時を過ぎてもメールが届かない場合は、まず「迷惑メールフォルダ」の確認をお願いします。

上記を確認されても見当たらない場合は、お問い合わせフォームからご連絡ください。

（※募集は締め切りました※）

概要

ブラウザのみ必要

演習中心で効率良く短期習得

モデルの学習

松尾研究室がコンテンツ作成

各講座

第1回強化学習基礎・離散制御・ゲームAI （担当講師：今井）

第2回動的計画法 （担当講師：北村）

第3回連続値制御 （担当講師：北村）

第4回モデルベース強化学習と世界モデル （担当講師：佐藤）

第5回Control as Inference （担当講師：谷口）

第6回オフラインデータを利用する手法 （担当講師：高城）

第7回応用を見据えた近年の発展的話題 （担当講師：高波・ソニーリサーチ河本様）

企画

監修・講師・教材作成

松嶋 達也

今井 翔太

北村 俊徳

谷口 尚平

高波 亮介

佐藤 誠人

髙城 頌太

講師（ゲストスピーカー）

河本 献太

TA

登坂 充

運営

大牧 信介

關 悠里子

大江 奈保子

日程

募集要項

参加条件

留意事項・お知らせ

応募フォーム

※募集を締め切りました※ 多数のご応募ありがとうございました。

Other Course

第1回強化学習基礎・離散制御・ゲームAI
（担当講師：今井）

第2回動的計画法
（担当講師：北村）

第3回連続値制御
（担当講師：北村）

第4回モデルベース強化学習と世界モデル
（担当講師：佐藤）

第5回Control as Inference
（担当講師：谷口）

第6回オフラインデータを利用する手法
（担当講師：高城）

第7回応用を見据えた近年の発展的話題
（担当講師：高波・ソニーリサーチ河本様）

松嶋達也

今井翔太

北村俊徳

谷口尚平

高波亮介

佐藤誠人

髙城頌太

河本献太

登坂充

大牧信介

關悠里子

大江奈保子

※募集を締め切りました※
多数のご応募ありがとうございました。