使用jieba套件進行中文tf-idf關鍵字詞提取時,由於.idf檔是用開發者預設的字詞權重,若開發者想對特定產業或是主題進行文字挖掘透過jieba,就必須定義屬於自己的idf權重

to52016 發表在 痞客邦 留言(0) 人氣()

t1.PNG
 
 

to52016 發表在 痞客邦 留言(0) 人氣()

K.PNG
 
 

to52016 發表在 痞客邦 留言(6) 人氣()

l1.PNG
 
 

to52016 發表在 痞客邦 留言(0) 人氣()

回歸.PNG
 
#scikit-learn套件

to52016 發表在 痞客邦 留言(0) 人氣()

output1.PNG
#視覺化
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')

to52016 發表在 痞客邦 留言(0) 人氣()

 
有鑒於近期得到公司APP的使用者紀錄資料,因此我想洞察出一些有用的資訊透過R語言   Sequential Pattern Mining 分析的方法,找出user使用APP的動線,看是否可以加強與改善APP

to52016 發表在 痞客邦 留言(1) 人氣()

MLB文字雲
 
 

to52016 發表在 痞客邦 留言(0) 人氣()

BAYES
 
 
再來一個應用情境: 我們要準備各個分類(汽車、運動、科技)的數篇新聞集合,然後比對計算特徵關鍵字字詞頻率向量。
 

to52016 發表在 痞客邦 留言(0) 人氣()

 
這次來試試貝式分類~~
 
用上一章KNN分類的資料來測試

to52016 發表在 痞客邦 留言(0) 人氣()

AIR資料
 
 

to52016 發表在 痞客邦 留言(0) 人氣()

巴哈dataset
 
一時興起 想探討巴哈XX版 GP值與回覆數之間有甚麼關聯~

to52016 發表在 痞客邦 留言(0) 人氣()

Blog Stats
⚠️

成人內容提醒

本部落格內容僅限年滿十八歲者瀏覽。
若您未滿十八歲,請立即離開。

已滿十八歲者,亦請勿將內容提供給未成年人士。