[Python] text mining/ jieba-建立jieba-idf權重計算演算法

使用jieba套件進行中文tf-idf關鍵字詞提取時，由於.idf檔是用開發者預設的字詞權重，若開發者想對特定產業或是主題進行文字挖掘透過jieba，就必須定義屬於自己的idf權重

此演算法的目的在於方便開發者定義屬於自己的idf權重，讓tf-idf關鍵字詞提取能夠更科學

#整體架構:
將收集而來的文件落地後儲存 --> 讀檔進corpus --> 切詞後計算idf後寫入.idf檔

#IDF權重算法

import nltk
import math
import string
from nltk.corpus import stopwords
from collections import Counter
from nltk.stem.porter import *
from sklearn.feature_extraction.text import TfidfVectorizer
from os import listdir
from os.path import isfile, isdir, join
import pandas as pd
import jieba
import re
import jieba.analyse

#這裡設定產業的常用字詞與停詞

jieba.load_userdict('C:/Users/.....txt')
jieba.analyse.set_stop_words("C:/Users/....txt")

#資料清理函數
def data_cleansing(content):
letters_only = re.sub("\W", "", content) #\W 比對非「數字字母字元或底線字母」，等效於 [^A-Za-z0-9_]
words = letters_only.lower().split()
return( " ".join( words ))

# idf計算數學函數
def n_containing(word, count_list):
return sum(1 for count in count_list if word in count)

def idf(word, count_list):
return '%s %f'%(word,math.log(len(count_list) / (1 + n_containing(word, count_list))))

# 資料收集檔案落地位置: 指定要列出所有檔案的目錄
mypath = "D:/XXX_file"

# 取得所有檔案與子目錄名稱
files = listdir(mypath)

#讀資料進corpus

corpus = []
for f in files:
# 產生檔案的絕對路徑
fullpath = join(mypath, f)
if isfile(fullpath):
print("檔案：", f)
text= open('D:/XXX_file/'+f, 'r',encoding='utf-8-sig') #注意!! 檔案要存成UTF-8格式
text_article=text.read()
#print(text_article)
corpus.append(text_article)
text.close()

print(corpus)

#先清空idf檔
f = open('C:/Users/....../newidf.txt','w', encoding='UTF-8')
f.truncate();

#寫入idf權重
len_corpus=len(corpus)
print(len_corpus)
for i in range(0,len_corpus):
words_line=jieba.cut(data_cleansing(corpus[i]),cut_all=False)
words_line=list(words_line)

#去stopwords
x=[]
for a in words_line:
if a not in [line.rstrip() for line in open('C:/Users/..../stopwords.txt', encoding='UTF-8')]:
x.append(a)
print(x)
#print(words_line)
len_words_line=len(x)
for j in range(0,len_words_line):
print(idf(x[j],corpus))
f = open('C:/Users/..../newidf.txt','a', encoding='UTF-8')
f.write(idf(x[j],corpus)+'\n') # 寫入idf值 # \n讓寫入換行
f.close()

to52016

Eason [資料科學//Python學習/資料庫] & [拍片&剪片]

to52016 發表在痞客邦留言(0) 人氣(969)

[24/01/08] Kevin 於文章「[R] 資料科學-序列樣式探勘分析(Se...」留言：
想請問一下，若某客戶的購買行為是其中一個單位時間內重複購買同...
[19/02/06] Spencer 於文章「Power Pivot與Power Vi...」留言：
請問 May 14 Thu 2015 ...
[19/02/06] Spencer 於文章「[Python] 機器學習(scikit...」留言：
您好對不起表二如下 , 前一封表二錯誤 ...
[19/02/06] Spencer 於文章「[Python] 機器學習(scikit...」留言：
您好請問下面兩個Table(表一 ...
[18/07/30] 俊傑於文章「[Python] 機器學習(scikit...」留言：
我是個新手，有個很大問題想請教， "from sklear...
[18/07/16] to52016 於文章「[Vlog] 花蓮-kid背包客 day...」留言：
哈哈因為下集一直沒時間處理感謝你的喜愛^^...
[18/07/14] Markjong001 於文章「[Vlog] 花蓮-kid背包客 day...」留言：
我是對花蓮不熟的花蓮人~~很高興看到你分享花蓮遊~~ 但怎...
[18/05/28] Moe 於文章「[oracle SQL] 抓取客戶最後...」留言：
範例有錯 first_value(參數) 參數只能是f...
[18/03/18] 東吳學生於文章「[Python] 機器學習(scikit...」留言：
您好，感謝分享，請問本範例中的StudentJob.csv檔...

Eason [資料科學//Python學習/資料庫] & [拍片&剪片]

do something funny !

[Python] text mining/ jieba-建立jieba-idf權重計算演算法

個人資訊

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

誰來我家

參觀人氣