使用jieba套件進行中文tf-idf關鍵字詞提取時,由於.idf檔是用開發者預設的字詞權重,若開發者想對特定產業或是主題進行文字挖掘透過jieba,就必須定義屬於自己的idf權重
- 7月 09 週一 201810:25
[Python] text mining/ jieba-建立jieba-idf權重計算演算法
使用jieba套件進行中文tf-idf關鍵字詞提取時,由於.idf檔是用開發者預設的字詞權重,若開發者想對特定產業或是主題進行文字挖掘透過jieba,就必須定義屬於自己的idf權重
- 8月 17 週四 201714:31
[Python] 機器學習(scikit-learn) -- 決策樹(分類)
- 8月 17 週四 201709:54
[Python] 機器學習(scikit-learn) --分群 K-means
- 8月 16 週三 201716:14
[Python] 機器學習(scikit-learn) --Logistic Regression(羅吉斯迴歸)
- 8月 16 週三 201715:54
[Python] 機器學習(scikit-learn) --簡單回歸分析

#scikit-learn套件
- 8月 16 週三 201714:57
[Python] 資料視覺化:matplotlib、pandas

#視覺化
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
- 7月 13 週四 201713:47
[R] 資料科學-序列樣式探勘分析(Sequential Pattern Mining)
有鑒於近期得到公司APP的使用者紀錄資料,因此我想洞察出一些有用的資訊透過R語言 Sequential Pattern Mining 分析的方法,找出user使用APP的動線,看是否可以加強與改善APP
- 7月 03 週一 201716:11
[R] 資料科學- text mining 文字雲 --以自由時報體育版新聞為例
- 7月 03 週一 201714:30
[R] 資料科學- 使用關鍵字字詞頻率資料分類 -使用貝式分類器

再來一個應用情境: 我們要準備各個分類(汽車、運動、科技)的數篇新聞集合,然後比對計算特徵關鍵字字詞頻率向量。
- 7月 03 週一 201713:59
[R] 資料科學-空氣檢測 -- 使用貝氏分類器(Naive Bayes Classifier)
這次來試試貝式分類~~
用上一章KNN分類的資料來測試




