欧美色欧美亚洲另类七区,惠美惠精品网,五月婷婷一区,国产亚洲午夜

課程目錄:Python文本分析學(xué)術(shù)應(yīng)用培訓(xùn)
4401 人關(guān)注
(78637/99817)
課程大綱:

          Python文本分析學(xué)術(shù)應(yīng)用培訓(xùn)

 

 

5 文本分析

5.1 文本分析概述

5.1.1 自然語言處理的層次

5.1.2 自然語言處理的難點

5.1.3 自然語言處理的流派

 

5.2 文本分析關(guān)鍵技術(shù)

5.2.1 常用文本整理和清洗方法

5.2.1.1 句子拆分

5.2.1.2 詞拆分

5.2.1.3 過濾重復(fù)的單詞

5.2.1.4 刪除停用詞

5.2.1.5 拼寫檢查

5.2.1.6 大小寫變換

5.2.1.7 文本翻譯

5.2.1.8 詞干提取

5.2.1.9 提取電子郵件或URL

5.2.2 中文分詞技術(shù)

5.2.2.1 規(guī)則分詞

5.2.2.2 統(tǒng)計分詞

5.2.2.3 混合分詞

5.2.2.4 實戰(zhàn):結(jié)巴分詞,對爬取的豆瓣數(shù)據(jù)分析,統(tǒng)計詞頻,繪制詞云圖

5.2.3 詞性標(biāo)注與命名實體識別

5.2.3.1 詞性標(biāo)注

5.2.3.2 命名實體識別

5.2.3.3 實戰(zhàn):基于jiebaku 的詞性標(biāo)注和基于HanLP的命名實體識別

5.2.4 文本向量化

5.2.4.1 離散化表示

5.2.4.2 分布式表示

5.2.4.3 實戰(zhàn):利用word2vec計算西游記中人物相似性

5.2.5 關(guān)鍵詞提取

5.2.5.1 TF-IDF算法

5.2.5.2 TextRank算法

5.2.5.3 LDA算法

5.2.5.4 實戰(zhàn):基于LDA主題模型進(jìn)行新聞關(guān)鍵詞提取

5.2.5.5 實戰(zhàn):網(wǎng)頁相似性分析

5.2.6 文本分類

5.2.6.1 分類算法介紹

5.2.6.2 實戰(zhàn):貝葉斯新聞分類

5.2.6.3 實戰(zhàn):虛假評論分類

5.2.7 文本聚類

5.2.7.1 kmeans算法介紹

5.2.7.2 實戰(zhàn):百度百科數(shù)據(jù)聚類

5.2.7.3 實戰(zhàn):豆瓣書籍?dāng)?shù)據(jù)聚類

5.2.8 文本情感分析

5.2.8.1 基于規(guī)則的情感分析

5.2.8.2 基于機(jī)器學(xué)習(xí)模型的情感分析

5.2.8.3 實戰(zhàn):基于豆瓣電影的情感分析

5.2.8.4 實戰(zhàn):在線情感分析系統(tǒng)

主站蜘蛛池模板: 仙游县| 盐城市| 康平县| 静海县| 兴安盟| 拉萨市| 会泽县| 泗阳县| 苍溪县| 瑞金市| 那曲县| 奉新县| 广东省| 滦平县| 台州市| 中西区| 涪陵区| 建平县| 京山县| 修文县| 绥中县| 梅河口市| 铜陵市| 望江县| 济宁市| 桃园市| 阿鲁科尔沁旗| 杭锦后旗| 乌鲁木齐市| 茂名市| SHOW| 阿拉尔市| 留坝县| 宣城市| 旬阳县| 政和县| 阿尔山市| 宜阳县| 平昌县| 荆门市| 大名县|