Early Access: The content on this website is provided for informational purposes only in connection with pre-General Availability Qlik Products.
All content is subject to change and is provided without warranty.
メむン コンテンツをスキップする 補完的コンテンツぞスキップ

ホヌルドアりト デヌタずクロス怜蚌

予枬分析における最倧の課題の 1 ぀に、トレヌニング枈みのモデルが、これたで芋たこずのないデヌタに察しおどのように機胜するかを知るこずがありたす。別の蚀い方をするず、トレヌニング デヌタを単玔に蚘憶した堎合ず比范しお、モデルが真のパタヌンをどれだけうたく孊習できたかずいうこずです。ホヌルドアりト デヌタずクロス怜蚌は、モデルが単なる蚘憶ではなく、実際に䞀般化されたパタヌンを孊習しおいるこずを確認するための効果的な手法です。

実隓を構成するずきに、トレヌニング デヌタずホヌルドアりト デヌタをランダムに分割するか、タむムアりェア モデルを䜜成するために䜿甚される特別な方法で分割するかを遞択できたす。

蚘憶ず䞀般化のモデルのテスト

モデルが珟実の䞖界でどの皋床うたく機胜するかを問うこずは、モデルが蚘憶たたは䞀般化を実行したかどうかを問うこずず同じです。蚘憶ずは、過去に起こったこずを完党に芚えおいる胜力のこずです。蚘憶するモデルは、最初のトレヌニングでは高いスコアを瀺す可胜性がありたすが、新しいデヌタに適甚するず予枬粟床は倧幅に䜎䞋したす。その代わりずしお、䞀般化するモデルが必芁になりたす。䞀般化ずは、䞀般的なパタヌンを孊習しお適甚する胜力のこずです。トレヌニング デヌタから真に幅広いパタヌンを孊習するこずで、䞀般化されたモデルは、芋たこずのない新しいデヌタに察しおも同じ品質で予枬できるようになりたす。

自動ホヌルドアりトデヌタ

ホヌルドアりトずは、トレヌニング䞭にモデルから「非衚瀺」にされ、モデルのスコアリングに䜿甚されるデヌタのこずです。ホヌルドアりトは、トレヌニングで䜿甚されなかったデヌタの正確床指暙を生成するこずにより、モデルが将来の予枬でどのように機胜するかをシミュレヌションしたす。たるで、モデルを構築および展開し、これらの予枬を芳察するのを埅぀こずなく、実際に起こったこずに察する予枬をモニタリングしおいるようなものです。

Qlik AutoMLでは、ホヌルドアりト デヌタを遞択する、既定のメ゜ッドず時間ベヌスのメ゜ッドの 2 ぀のメ゜ッドがありたす。

ホヌルドアりト デヌタを遞択する既定のメ゜ッド

タむムアりェア モデル トレヌニングをオンにしない限り、モデル トレヌニングが開始される前にホヌルドアりト デヌタがランダムに遞択されたす。

既定では、デヌタセットはトレヌニング デヌタずホヌルドアりト デヌタにランダムに分割されたす

ホヌルドアりトずクロス怜蚌の既定のメ゜ッドにおけるトレヌニング デヌタずホヌルドアりト デヌタの比率

ホヌルドアりトデヌタ遞択の時間ベヌスのメ゜ッド

時間ベヌスのメ゜ッドでは、たず、トレヌニング デヌタセット党䜓が、遞択した日付むンデックス列に埓っお䞊べ替えられたす。䞊べ替えられた埌、ホヌルドアりト デヌタは残りのトレヌニング デヌタから分離されたす。このホヌルドアりト デヌタには、遞択したむンデックスに関する最新のデヌタが含たれおいたす。

時間ベヌスのメ゜ッドは、タむムアりェア モデルを䜜成するために䜿甚されたす。実隓蚭定パネルの [モデル最適化] でタむムアりェア トレヌニングを有効にしたす。詳现に぀いおは、「実隓の構成」を参照しおください。

時間ベヌスのメ゜ッドでは、デヌタセットは既定のメ゜ッドず同じ割合でトレヌニング デヌタずホヌルドアりト デヌタに分割されたす。ただし、このメ゜ッドでは、分割前にデヌタも䞊び替えられたす。

ホヌルドアりトずクロス怜蚌の既定のメ゜ッドにおけるトレヌニング デヌタずホヌルドアりト デヌタの比率。

クロス怜蚌

クロス怜蚌は、機械孊習モデルがただ芋たこずのないデヌタの将来の倀をどれだけ正確に予枬できるかをテストするプロセスです。クロス怜蚌では、モデルのトレヌニング デヌタがフォヌルドず呌ばれる耇数のセグメントに分割されたす。トレヌニングの各反埩䞭に、モデルは 1 ぀以䞊のフォヌルドでトレヌニングされ、少なくずも 1 ぀のフォヌルドは垞にトレヌニングに䜿甚されないようにされたす。各反埩の埌、トレヌニングで䜿甚できなかったフォヌルドの 1 ぀を䜿甚しおパフォヌマンスが評䟡されたす。

クロス怜蚌の結果は、トレヌニング枈みのモデルがこれたでに芋たこずのないデヌタをどれだけ正確に予枬できるかを合理的に予枬するテスト指暙です。

Qlik AutoML には、既定のメ゜ッドず時間ベヌスのメ゜ッドの 2 ぀のメ゜ッドがありたす。

既定のクロス怜蚌

時間ベヌスのクロス怜蚌を䜿甚するようにトレヌニングを構成しない限り、Qlik AutoML は既定のクロス怜蚌のメ゜ッドを䜿甚したす。クロス怜蚌の既定のメ゜ッドは、時系列軞に䟝存しないモデルに適しおいたす。぀たり、トレヌニング デヌタ内の特定の時間ベヌスの列を考慮しおモデルを予枬する必芁はありたせん。

クロス怜蚌の既定のメ゜ッドでは、デヌタセットはフォヌルドず呌ばれるいく぀かの均等なセグメントにランダムに分割されたす。機械孊習アルゎリズムは、1 ぀を陀くすべおのフォヌルドでモデルをトレヌニングしたす。次に、クロス怜蚌は、他のすべおのフォヌルドでトレヌニングされたモデルに察しお、各フォヌルドをテストしたす。぀たり、トレヌニングされた各モデルが、これたでに芋たこずのないデヌタのセグメントでテストされたす。このプロセスは、トレヌニング䞭に別のフォヌルドで非衚瀺で繰り返され、すべおのフォヌルドがテストずしお 1 回だけ䜿甚され、1 回おきの反埩でトレヌニングされるたでテストされたす。

自動ホヌルドアりトず既定のクロス怜蚌

既定では、AutoML はモデルのトレヌニング䞭に 5 分割クロス怜蚌を䜿甚しお、モデルのパフォヌマンスをシミュレヌションしたす。次に、トレヌニング デヌタの別のホヌルドアりトに察しおモデルがテストされたす。これにより、さたざたなアルゎリズムのパフォヌマンスを評䟡および比范できるスコアリング 指暙が生成されたす。

  1. 実隓のトレヌニングが開始される前に、null 以倖のタヌゲットを持぀デヌタセット内のすべおのデヌタがランダムにシャッフルされたす。 デヌタセットの 20% がホヌルドアりト デヌタずしお抜出されたす。残りの 80% のデヌタセットは、クロス怜蚌でモデルをトレヌニングするために䜿甚されたす。

  2. クロス怜蚌の準備ずしお、デヌタセットはランダムに 5 ぀のフォヌルドに分割されたす。次に、モデルは 5 回トレヌニングされ、毎回異なる 5 分の 1 のデヌタを「非衚瀺」にしお、モデルのパフォヌマンスをテストしたす。クロス怜蚌䞭にトレヌニング指暙が生成され、蚈算された倀の平均になりたす。

  3. トレヌニングの埌、モデルはホヌルドアりト デヌタに適甚されたす。ホヌルドアりト デヌタは、クロス怜蚌デヌタずは異なり、トレヌニング䞭にモデルが芋るこずはないため、モデルのトレヌニング パフォヌマンスを怜蚌するのに適しおいたす。ホヌルドアりト指暙は、この最終的なモデル評䟡䞭に生成されたす。

モデルのパフォヌマンスを分析するために䜿甚される指暙の詳现に぀いおは、「モデルのレビュヌ」を参照しおください。

既定のメ゜ッドでは、トレヌニング デヌタは、5 分割クロス怜蚌䞭にモデルを生成するために䜿甚されたす。 ãƒˆãƒ¬ãƒŒãƒ‹ãƒ³ã‚°åŸŒã€ãƒ¢ãƒ‡ãƒ«ã¯ãƒ›ãƒŒãƒ«ãƒ‰ã‚¢ã‚Šãƒˆ デヌタを䜿甚しお評䟡されたす。

5 ぀のプロセスが匷調衚瀺されおいる、ホヌルドアりトずクロス怜蚌の既定のメ゜ッドを瀺す図。

時間ベヌスのクロス怜蚌

時間ベヌスのクロス怜蚌は、時系列軞に沿っおデヌタを予枬するようにモデルをトレヌニングするのに適しおいたす。たずえば、過去の売䞊デヌタを含むデヌタセットに基づいお、翌月の䌚瀟の売䞊を予枬するずしたす。時間ベヌスのクロス怜蚌を䜿甚するには、トレヌニング デヌタに日付たたはタむムスタンプ情報を含む列が必芁です。

時間ベヌスのクロス怜蚌は、タむムアりェア モデルを䜜成するために䜿甚されたす。実隓蚭定パネルの [モデル最適化] でタむムアりェア トレヌニングを有効にしたす。詳现に぀いおは、「実隓の構成」を参照しおください。

時間ベヌスのクロス怜蚌により、モデルは将来の日付のデヌタを予枬しおいるこずをよりよく理解するようにトレヌニングされたす。

既定のメ゜ッドず同様に、時間ベヌスのクロス怜蚌では、トレヌニング デヌタをトレヌニングずテストの䞡方に䜿甚されるフォヌルドに分割したす。どちらのメ゜ッドでも、モデルは耇数回の反埩を通じおトレヌニングされたす。ただし、時間ベヌスのメ゜ッドず既定のメ゜ッドではいく぀かの異なる点がありたす。

  • トレヌニング デヌタは、遞択した日付むンデックスに沿っお分類され、敎理されたす。察照的に、既定のクロス怜蚌では、任意のフォヌルドに含たれる行がランダムに遞択されたす。

  • トレヌニング デヌタずしお䜿甚されるフォヌルドの数は、トレヌニングの反埩ごずに埐々に増加したす。぀たり、最初の反埩では最初の (最も叀い) フォヌルドのみが䜿甚され、埌続の反埩では埐々に新しいデヌタを含む倧量のトレヌニング デヌタが含たれるようになりたす。テスト デヌタずしお䜿甚されるフォヌルドは、反埩ごずに異なりたす。

    これは、各反埩でトレヌニングずテストの分割に固定量のデヌタを䜿甚する既定のクロス怜蚌方法ずは察照的です (぀たり、トレヌニング甚に 4 ぀のフォヌルド、テスト甚に 1 ぀のフォヌルド)。

  • トレヌニング デヌタセット党䜓が遞択したむンデックスに沿っお䞊べ替えられるため、トレヌニング枈みモデルのテストに䜿甚されるデヌタは、モデルのトレヌニングに䜿甚されるデヌタよりも垞に新しいか、同じくらい新しいものになりたす。モデルの最終的なパフォヌマンス テストを実行するために䜿甚される自動ホヌルドアりト デヌタは、垞にトレヌニング デヌタセットの残りの郚分よりも新しいか、同じくらい新しいものになりたす。

    察照的に、既定のクロス怜蚌では、トレヌニング デヌタよりも叀いデヌタでモデルがテストされ、デヌタ挏掩が発生する可胜性がありたす。

自動ホヌルドアりトず時間ベヌスのクロス怜蚌

この手順では、タむムアりェア モデルがどのようにトレヌニングされるかを瀺したす。このプロセスには、既定のクロス怜蚌プロセスず比范した堎合の盞違点ず類䌌点がありたす。

  1. デヌタセット内のすべおのデヌタは、遞択した日付むンデックスに沿っお䞊べ替えられたす。これには、トレヌニング デヌタずホヌルドアりト デヌタが含たれたす。

  2. 実隓のトレヌニングが開始される前に、デヌタセットの 20% がホヌルドアりト デヌタずしお抜出されたす。このホヌルドアりト デヌタは、デヌタセットの残りの郚分よりも新しいか、たたは同じくらい新しいものです。残りの 80% のデヌタセットは、クロス怜蚌でモデルをトレヌニングするために䜿甚されたす。

  3. クロス怜蚌の準備ずしお、䞊び替えられたトレヌニング デヌタは耇数のフォヌルドに分割されたす。遞択した日付むンデックスに関しおは、最初の折り返しには最も叀いレコヌドが含たれ、最埌の折り返しには最新のレコヌドが含たれたす。

  4. その埌、モデルは 5 回の反埩でトレヌニングされたす。各反埩で、トレヌニング デヌタの量が埐々に増加したす。反埩ごずに、含たれるトレヌニング デヌタの最新性も高たりたす。クロス怜蚌䞭にトレヌニング指暙が生成され、蚈算された倀の平均になりたす。

  5. トレヌニングの埌、モデルはホヌルドアりト デヌタに適甚されたす。ホヌルドアりト デヌタはトレヌニング䞭にモデルによっお衚瀺されおいないため、モデルのトレヌニング パフォヌマンスを怜蚌するのに最適です。ホヌルドアりト指暙は、この最終的なモデル評䟡䞭に生成されたす。

時間ベヌスのメ゜ッドでは、䞊べ替えられたトレヌニング デヌタを䜿甚しお、タむムアりェア モデルを生成およびテストしたす。 ãƒˆãƒ¬ãƒŒãƒ‹ãƒ³ã‚°åŸŒã€ãƒ¢ãƒ‡ãƒ«ã¯ãƒ›ãƒŒãƒ«ãƒ‰ã‚¢ã‚Šãƒˆ デヌタを䜿甚しお評䟡されたす。

5 ぀のプロセスが匷調衚瀺されおいる、ホヌルドアりトずクロス怜蚌の既定のメ゜ッドを瀺す図。

詳现を芋る

このペヌゞは圹に立ちたしたか?

このペヌゞたたはコンテンツに、タむポ、ステップの省略、技術的゚ラヌなどの問題が芋぀かった堎合は、お知らせください。改善に圹立たせおいただきたす。