データサイエンティストのためのHiveQL分析クエリテンプレートその２

本記事は移転しました。新サイトにリダイレクトします。

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。

データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ：

その１, その２, その３, その４, その５, その６

B. < m1 | Bin(m2), Bin(m3) > パターン

前回はディメンジョンdim1, dim2を直接セグメントとして渡していましたが，今回はメジャーを特定の区間に分類することによってセグメント化されるパターンを見ていきます。

定義

< Count(1)|Bin(m1) > および< Count(1)|Bin(m1), Bin(m2) > をそれぞれ「m1(, m2) における頻度分布（Distribution）」とよび，それぞれDis<m1>, Dis<m1,m2> と書く。わかりやすく「m1 (,m2) の分布」と表現しても良い。また，順序付け可能なディメンジョン dim1, dim2 を含む< Count(1)|Bin(m1), dim1>，< Count(1)|dim1, dim2 > も分布と定義する。

パターン B-1：< COUNT(1) | Bin(m) >

SELECT ceil( #m/width )*width AS x, COUNT(1) AS cnt

FROM

(

SELECT #m, 1 AS one

FROM table

WHERE condition

) t1

JOIN

(

SELECT POW(10,floor(LOG10(MAX( #m )))-1) / n AS width, 1 AS one
FROM table
WHERE condition

) t2

ON t1.one = t2.one

GROUP BY ceil( #m/width )*width

ORDER BY x

※ width を定義する POW(10,floor(LOG10(MAX( #m )))-1) / n は，標準は n=1 で最適な区間を切ってくれますが，より細かい区間を設定したい場合は n=10,100,1000,... を設定してください。

例

以下のHistogramは中古車の相場価格を100,000円ごとの区間に区切って区間毎の頻度を集計したものです。

f:id:treasure-data:20140430154125p:plain

f:id:treasure-data:20140430145807p:plain

このHistogramからわかるのは，30〜40万台をピークになだらかに減少しており，綺麗な単峰になっていることです。500万円以上のものは500万円のセグメントに集約しましたが，500万円以上の車も4281件エントリーされています。

パターン B-2：< COUNT(1) | Bin(m1), Bin(m2) >

次は2つのメジャーを区間によってセグメント化した2次元分布です。

SELECT ceil( #m1/t2.width)*t2.width AS x, ceil( #m2/t3.width)*t3.width AS y, COUNT(1) AS cnt

FROM

(

SELECT #m1, #m2, 1 AS one

FROM table

WHERE condition

) t1

JOIN

(

SELECT POW(10,floor(LOG10(MAX( #1 )))-1) AS width, 1 AS one

FROM table

WHERE condition

) t2

ON t1.one = t2.one

JOIN

(

SELECT POW(10,floor(LOG10(MAX( #m2 )))-1) AS width, 1 AS one

FROM table

WHERE condition

) t3

ON t1.one = t3.one

GROUP BY ceil( #m1/t2.width)*t2.width, ceil(#m2/t3.width)*t3.width

ORDER BY x, y