関連する機械学習手法のレビュー
このセクションでは、量子機械学習のワークフローをより深く理解するために役立つ、古典的機械学習における主要な用語と手法を振り返ります。まず一般的な用語を紹介し、その後カーネル法(特にサポートベクターマシンの文脈で)とニューラルネットワークという2種類の機械学習について詳しく説明します。これらの手法には確かに共通点がありますが、ここおよび後のレッスンで説明する量子ワークフローの違いを踏まえ、それぞれ独立したものとして扱います。 これはあくまで概略的なレビューであり、多くの細かい点については省略します。機械学習のより包括的な概要については、[1-3] などのリソースをお勧めします。
機械学習の種類
簡単に定義すると、機械学習はデータのパターンや関係性を分析し、そこから推論を引き出すアルゴリズムの集まりです。大まかに言って、機械学習アルゴリズムは、扱うデータの種類とアルゴリズムが明示的なプログラムなしに学習する方法に応じて、主に3つのカテゴリーに分類できます。
- 教師あり学習: 教師あり学習では、モデルの訓練に使用されるデータにラベルが付いています。この アルゴリズムの目標は、データとそれに対応するラベルや出力との関係を学習し、未知のデータにも汎化することです。このクラスの代表的なタスクには、分類と回帰があります。
- 教師なし学習: 教師あり学習とは対照的に、教師なし学習ではラベルなしデータを使って機械学習モデルを訓練します。このアルゴリズムの目標は、データに隠れたパターンや構造を発見することです。このクラスのアルゴリズムには、クラスタリングや次元削減アルゴリズムがあります。敵対的生成ネットワーク(GAN)や変分オートエンコーダーなどの生成モデルもこのカテゴリーに含められることがあります。
- 強化学習: この機械学習カテゴリーのアルゴリズムは、環境と相互作用するエージェントによって定義されます。エージェントは行動を取り、報酬や罰という形で環境からフィードバックを受け取ります。このフィードバック機構を通じて、エージェントは特定のタスクを実行するための適切な行動の組み合わせを学習していきます。

左の画像は、教師あり学習のようにラベル付きデータが2つのカテゴリーに分かれている様子を示しています。この場合、カテゴリーは線形分離可能です。右の画像はデータのクラスターを示しています。教師なし学習のタスクでは、これらのデータは最初ラベルが付いておらず、アルゴリズムは分布を調べ、おそらくクラスターを探します。アルゴリ ズムが識別するであろうクラスターの例を可視化するために、データポイントにはラベルが付けられています。2つの主な違いは、教師あり学習のプロセスはデータにあらかじめラベルが付いた状態で始まり、教師なし学習のプロセスはラベルなしデータから始まる点です(たとえ最終的にデータにラベルが付けられるとしても)。
機械学習への「量子」の導入
ここから、機械学習に「量子」がどのように導入されるかを探っていきます。この大まかな分類では、処理デバイス上のモデル/アルゴリズムの種類と、それに提供されるデータの種類を考慮します。上の図は、考えられる組み合わせをまとめたものです。

たとえば、CCとは、古典的なデータセット(画像、音声、テキストなど、古典コンピューターに保存できるもの)を持ち、かつ古典的なコンピューターを使って機械学習アルゴリズムを実行することを意味します。これはまさに古典的機械学習の設定です。一方、QQとは、量子コンピューターを使って量子データを処理することを意味します。ここで「量子データ」はいくつかの意味を持ち得ますし、文脈に依存することもあります。量子データとは、量子デバイスから得られた測定結果の集合と考えることもできますし、別のアルゴリズムによって量子コンピューター上で準備された状態を指すこともあります。将来的には、現在は存在しないQRAM(量子ランダムアクセスメモリ)に保存されたデータを指す可能性さえあります。研究者が量子機械学習について語るとき、彼らは通常CQの領域を指しています。つまり、手元のデータセットは古典的で、機械学習アルゴリズムを実行する処理デバイスは量子コンピューターという状況です。本コースの以降の部分では、そのようなアルゴリズムに焦点を当てます。
サポートベクターマシン
ここでは、古典的機械学習の観点から、サポートベクターマシンと呼ばれるアルゴリズムのクラスを振り返ります。後ほど、このアルゴリズムに量子コンピューティングをどう組み込むかを示します。

図に示すように、2次元特徴空間を持つデータセットでの2値分類タスクを考えてみましょう。このデータセットの分類を行う一つの方法は、2つのクラスを分離する直線、より一般的には超平面を見つけることです。実際には、分離超平面は無数に存在するため、問題はどのように最適なものを定義する かです。ここでの考え方は、特に優れた決定境界とは、各クラスの最近傍点までの距離として定義されるマージンを最大化するものであるというものです。この設定では、決定境界までの距離が最も小さいデータポイントをサポートベクターと呼びます。
線形決定境界はさまざまな方法で記述できますが、最もわかりやすい一つの方法は、以下の に示すものです。ここで、 は超平面を定義するパラメーターの集合、 はデータセット、 は定数シフトです。 は入力データ点の空間からの写像であり、多くの場合(ただし必ずしもそうではありません)より高次元の空間への写像です。この写像については後ほど再び説明します。
モデル において、 はモデルが学習すべきチューナブルなパラメーターのベクトルです。これを「主問題(プライマル定式化)」と呼びます。数学的な操作によって、同じ問題を別の方法で定式化できることが示せます。これを「双対定式化(デュアル定式化)」と呼び、以下の式 で表されます。この定式化では、アルファパラメーターに対して最適化を行う必要があります。主な違いは、主問題では式に特徴ベクトルと学習可能なパラメーターの内積が含まれるのに対し、双対問題では内積が特徴ベクトル同士の間で取られる点です。双対形式には訓練データの特徴と対応するラベルの両方が含まれますが、次のセクションで主問題よりも有用であることがわかるでしょう。
カーネル法と量子の役割
以下の動画は、量子が線形分類器においてどのような役割を果たせるかを解説しています。詳細については本文で説明します。
より高次元空間への移行
このサブセクションおよび次のサブセクションでは、高次元への写像についての議論を行います。ここでのポイントは、空間間の写像という文脈で「カーネルトリック」を説明し、量子カーネルとは何かの下地を作ることです。量子波動関数の高次元性がすべての問題を解決するということを主張しているわけでは__あり ません__。はじめに述べたように、古典的なガウス特徴マップはすでに無限次元です。データ特徴の次元数は重要ですが、高次元の量子状態だけでは古典的手法に対する改善には不十分です。
グラフ的に見ると、適切な高次元への写像が与えられれば、元のデータが線形分離不可能な場合にもSVMアプローチを一般化できることが容易にわかります。左側の2次元データを見ると、2つのクラスを分離できる線形決定境界が存在しないことがわかります。しかし、特徴空間に3つ目の特徴を追加することを考えられます。この新しい特徴が、たとえば元の2つの特徴 と の原点からの距離であれば、データは線形分離可能になります。これはまた、この高次元特徴空間でサポートベクターマシンアルゴリズムを正常に実行できることを意味します。

この「特徴マッピング」も と表します。特徴マップは、ここに示すように入力データの空間からより高い次元へ写像することが多いですが、より低い次元への写像を利用するモデルやアルゴリズムもあります。高次元への写像は、単に視覚化して理解しやすい例に過ぎませ ん。
特徴マップによっては、非常に高次元の空間へ写像するものもあります。そのような場合、高次元性のために内積の計算コストが高くなります。この点については後ほど再び説明します。