モハメド・テリー・ジャック
ロボットの核となるのは、与えられた状況で何をすべきか (つまり、どのアクションを取るべきか) を指示するポリシーです。これは、単純なルールの集合でも、複雑な数学関数でもかまいません。しかし、ルールや数学関数がどのようなものであるべきかをどうやって知るのでしょうか。幸い、関数を近似する機械学習アルゴリズム (カーネル マシン、ディープ ラーニングなど) や、これらのルールを自動的に推論する機械学習アルゴリズム (帰納的論理プログラミング、ランダム フォレストなど) があります。ただし、教師あり学習アルゴリズムには大量のトレーニング データが必要であり、それが利用できない場合もあります。進化的手法 (遺伝的アルゴリズムなど) やその他の最適化アルゴリズムでは、ポリシー空間を評価および検索して最適なルールや関数を見つけるためにトレーニング データは必要ありません。あるいは、強化学習で行われるように、ポリシーを直接検索 (状態/アクション状態空間経由) に等しくすることで、学習した評価関数 (V 関数や Q 関数など) を使用して次善のアクションを見つけることができます。