機械学習の正則化を例とともに説明 | 北京ホーニングツール株式会社

ゲッティイメージズ

機械学習における正則化は、機械学習モデルが同じデータセット内の新しいデータに一般化できることを保証するために使用される一連の手法です。これらの手法は、パターンの予想範囲外にあるノイズの多いデータの影響を軽減するのに役立ちます。正則化により、分類タスク内で関連するエッジケースを検出しやすくなり、モデルを改善することもできます。

スパムメールを識別するために特別に訓練されたアルゴリズムを検討してください。このシナリオでは、米国の有名なドラッグストアチェーンからのものと思われ、画像が 1 枚だけ含まれている電子メールをスパムの可能性が高いものとして分類するようにアルゴリズムがトレーニングされています。しかし、この狭いアプローチでは、店舗の最新のセールについての通知を楽しみにしていたチェーンの忠実な顧客を失望させる危険があります。より効果的なアルゴリズムでは、電子メールのタイミング、画像の使用、電子メールに埋め込まれたリンクの種類などの他の要素が考慮され、電子メールを正確にスパムとして分類することになります。

ただし、このより複雑なモデルでは、これらの各対策がアルゴリズムに追加する影響も考慮する必要があります。正則化を行わないと、新しいアルゴリズムは過度に複雑になり、バイアスがかかり、分散を検出できないリスクがあります。これらの概念については、以下で詳しく説明します。

つまり、正則化により、トレーニング中にモデルの複雑さが軽減されると、PwC のデータ、AI、分析リーダーであるブレットグリーンスタイン氏は説明しました。

「正則化は、モデルの特徴に重要性を割り当てるために使用される損失関数または値に追加される一種のペナルティとして機能します」とGreenstein氏は述べています。「このペナルティにより、モデルはその特徴に重要性を過剰に割り当てる可能性のあるパラメータを見つけることができなくなります。」

そのため、正則化は、データサイエンティストがモデルのトレーニングを改善して一般化を改善したり、未知の例にさらされたときにモデルが適切に機能する可能性を高めたりするために使用できる重要なツールです。

デジタル変革コンサルティング会社 UST の AI および機械学習のチーフアーキテクトであるアドナン・マスード氏は、彼の会社では定期的に正則化を使用してモデルの複雑さとパフォーマンスのバランスを取り、過小適合と過適合の両方を巧みに回避していると述べました。

上で説明したように、過学習は、モデルが複雑すぎてトレーニングデータ内のノイズを学習した場合に発生します。モデルが単純すぎて基礎となるデータパターンを捕捉できない場合、アンダーフィッティングが発生します。

「正則化は、これら 2 つの極端な間の最適なバランスを見つける手段を提供します」と Masood 氏は述べています。

小売業における正則化の使用の別の例を考えてみましょう。このシナリオでは、企業は、特定の製品がいつ在庫切れになるかを予測できるモデルを開発したいと考えています。これを行うために、同社は過去の販売データ、季節性、プロモーションイベント、天候や休日などの外部要因など、多くの特徴を備えたトレーニングデータセットを開発しました。

ただし、モデルがトレーニングデータ内の特定のパターンに密接に結び付きすぎると、過剰適合が発生する可能性があり、その結果、新しいまだ見たことのないデータに基づいて在庫切れを予測する効果が低下する可能性があります。

「正則化がなければ、私たちの機械学習モデルは潜在的にトレーニングデータを学習しすぎて、履歴データのノイズや変動に過度に敏感になる可能性があります」とマスード氏は述べています。

この場合、データサイエンティストは、線形回帰モデルを適用して、実際の在庫切れインスタンスと予測される在庫切れインスタンスの間の二乗差の合計を最小化します。これにより、モデルが 1 つの特徴に過度の重要性を割り当てることがなくなります。

さらに、正則化の強度を決定するためにラムダパラメーターを割り当てる場合もあります。このパラメーターの値が高くなると、正則化が増加し、モデル係数 (モデルの重み) が低くなります。

この正規化されたモデルがトレーニングされると、トレーニングデータのフィッティングとモデルの重みを小さく保つバランスがとれます。その結果、モデルはトレーニングデータでは精度が低くなる可能性がありますが、新しい未確認のデータで在庫切れを予測する場合は精度が高くなる可能性があります。