信頼度・支持度と単純に書くと、選挙とかの候補者が関係してきそうですが、今回取り上げる用語はそういう意味では使いません。データマイニングでは、もう少し違った意味になります。
ここで説明する前に、もう少し前提を定義しておきます。「トランザクション」は、ある「アイテム」の組み合わせで構成される1つの単位です。「アイテム」は、データマイニングで知識発見をするための一番小さな単位で、具体的なオブジェクトになることがおおいです。「アイテム」の例として、お店のさまざまな商品(野菜とか果物とか)が当てはまります。この例では「トランザクション」は、1人のお客さんがかごに入れる商品になります。
さて、ここでX、Yをあるアイテムとします。信頼度とは、「X,Yを含むトランザクション数 / Xを含むトランザクション数 」になります。つまり、Xを含むならYも含まれる割合になります。
支持度は、「X,Yを含むトランザクション数 / 全トランザクション数 」です。これは単純に、全体でX,Yが現れる割合になります。
リフト値は、「X,Yを含むトランザクション数 / Yを含むトランザクション数 」です。これは、Xを前提としたときとしないときの、Yが出現する倍率となります。リフト値が1より大きいなら、Xを前提としたほうがYが出現する割合が多くなることを示します。
ちなみに信頼度(確信度)はConfidence、支持度はSupport、リフト値はLiftとも書かれます。
コメントする