[R] 資料科學-序列樣式探勘分析(Sequential Pattern Mining) @ Eason [資料科學//Python學習/資料庫] & [拍片&剪片]

有鑒於近期得到公司APP的使用者紀錄資料，因此我想洞察出一些有用的資訊透過R語言 Sequential Pattern Mining 分析的方法，找出user使用APP的動線，看是否可以加強與改善APP

這裡稍微紀錄一下序列分析的方法~~

Sequential Pattern Mining 是找出「大部分的人都有的行為模式」的方法，他是關聯規則的延伸，加入了時間的觀念

測試資料如下(txt檔):

1,1,A
1,2,B
1,3,C
1,4,A
1,5,B
2,1,B
2,2,D
2,3,A
2,4,B
3,1,A
3,2,C
3,3,C
3,4,D
4,1,A
4,2,B
4,3,C

此測試檔有4個user，16筆資料

第一個colunm為使用者ID，第二個colunm為時間順序(時間間隔不需要考慮)，第三個colunm為發生的事件(event)

最後想呈現的效果為當某些人做了甚麼後接下來會做甚麼，可以用在商品推薦等等...

以下是R語言的程式:

-----------------------------------------

>library("arulesSequences") #使用arulesSequences套件

> sq_test=read_baskets("C:\\learnR2015\\sq_test.txt",sep=",",info=c("sequenceID", "eventID")) #吃txt檔，以sep="," 分隔，前兩ˋ個欄位定義成"sequenceID", "eventID"

> sq_test_0.4=cspade(sq_test,parameter=list(supp=0.4),control=list(verbose=T),tmpdir=tempdir()) #建模型使用支持度0.4 ( 最小支持度：篩選出至少40%的人共有的樣式 ) 當支持度設定越低可以跑出更多規則但花的時間就越久反之

> summary(sq_test_0.4)

> sq_test_0.4 <- as(sq_test_0.4,"data.frame") #將sq_test_0.4轉換成data.frame

結果集:

> sq_test_0.4
sequence support
1 <{A}> 1.00
2 <{B}> 0.75
3 <{C}> 0.75
4 <{D}> 0.50
5 <{A},{C}> 0.75
6 <{B},{C}> 0.50
7 <{A},{B},{C}> 0.50
8 <{A},{B}> 0.75
9 <{B},{B}> 0.50
10 <{B},{A},{B}> 0.50
11 <{B},{A}> 0.50
>

分析:

我們從分析跑出來的pattern 可以看出一些關聯，以第5點來說，有7成5的user <{A},{C}> 做了A之後會做C ，以第7點來說有5成的人<{A},{B},{C}> 做了A之後會做B然後做C

如果這是一個客戶交易行為，老闆可以考慮找出買A的人然後強力推銷C，如此，可以有效提高客戶的再購率

參考:

http://blog.pulipuli.info/2017/01/rarulessequences-sequential-pattern.html

http://www.cc.ntu.edu.tw/chinese/epaper/0036/20160321_3606.html

python版本:

http://blog.pulipuli.info/2017/08/pythonprefixspan-implement-sequential.html

to52016

Eason [資料科學//Python學習/資料庫] & [拍片&剪片]

to52016 發表在痞客邦留言(1) 人氣()

E-mail轉寄

Eason [資料科學//Python學習/資料庫] & [拍片&剪片]

do something funny !

[R] 資料科學-序列樣式探勘分析(Sequential Pattern Mining)

歷史上的今天

留言列表

站方公告

活動快報

痞客邦...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY