強化学習｜NTTデータ数理システム

HOME
強化学習

強化学習は機械学習の分野の1つです。強化学習で構築されたモデルの特徴は、変化する状況に応じて、その都度最適な判断を行い続けられる点にあります。

強化学習では、AI（エージェント）に何らかの選択をさせたときにその行動に対する評価（報酬）を与えて、評価が大きくなるような行動の仕方を学習させていきます。教師あり学習の正解ラベルと異なり、報酬はある1つの行動に対して即座に与えられる必要はなく、状況に応じて何度かの行動を行った結果に対して与えられる形でかまいません。次の行動の結果という短期的な結果だけにとらわれず、最終的な報酬の最適化に向かうための判断の仕方を学習させることができます。

囲碁や将棋のAIに強化学習が使われていることで有名ですが、自動車の自動運転、生産工程の自動化、搬送ロボット（AMR/AGV）の自動制御、配車・配送のリアルタイム最適化、ダイナミックプライシングなどの高度な自律的処理が求められるシーンで、ビジネスでの応用も広がっています。

強化学習

関連ニュース・コラム

製品活用事例