国产美女精品自在线拍免费,欧美v日韩v亚洲v最新在线,久久精品女同亚洲女同

Python中文分詞庫(kù)-jieba簡(jiǎn)介

發(fā)布日期：2022/12/3 12:49:06 瀏覽量：

(1).介紹

　　jieba是優(yōu)秀的中文分詞第三方庫(kù)。由于中文文本之間每個(gè)漢字都是連續(xù)書寫的，我們需要通過特定的手段來(lái)獲得其中的每個(gè)單詞，這種手段就叫分詞。而jieba是Python計(jì)算生態(tài)中非常優(yōu)秀的中文分詞第三方庫(kù)，需要通過安裝來(lái)使用它。

　　jieba庫(kù)提供了三種分詞模式，但實(shí)際上要達(dá)到分詞效果只要掌握一個(gè)函數(shù)就足夠了，非常的簡(jiǎn)單有效。

　　安裝第三方庫(kù)需要使用pip工具，在命令行下運(yùn)行安裝命令（不是IDLE）。注意：需要將Python目錄和其目錄下的Scripts目錄加到環(huán)境變量中。

　　使用命令pip install jieba安裝第三方庫(kù)，安裝之后會(huì)提示successfully installed，告知是否安裝成功。

　　分詞原理：簡(jiǎn)單來(lái)說(shuō)，jieba庫(kù)是通過中文詞庫(kù)的方式來(lái)識(shí)別分詞的。它首先利用一個(gè)中文詞庫(kù)，通過詞庫(kù)計(jì)算漢字之間構(gòu)成詞語(yǔ)的關(guān)聯(lián)概率，所以通過計(jì)算漢字之間的概率，就可以形成分詞的結(jié)果。當(dāng)然，除了jieba自帶的中文詞庫(kù)，用戶也可以向其中增加自定義的詞組，從而使jieba的分詞更接近某些具體領(lǐng)域的使用。

(2).使用說(shuō)明

　　jieba分詞有三種模式：精確模式、全模式和搜索引擎模式。

　　簡(jiǎn)單說(shuō)，精確模式就是把一段文本精確的切分成若干個(gè)中文單詞，若干個(gè)中文單詞之間經(jīng)過組合就精確的還原為之前的文本，其中不存在冗余單詞。精確模式是最常用的分詞模式。

　　進(jìn)一步j(luò)ieba又提供了全模式，全模式是把一段中文文本中所有可能的詞語(yǔ)都掃描出來(lái)，可能有一段文本它可以切分成不同的模式或者有不同的角度來(lái)切分變成不同的詞語(yǔ)，那么jieba在全模式下把這樣的不同的組合都挖掘出來(lái)，所以如果用全模式來(lái)進(jìn)行分詞，分詞的信息組合起來(lái)并不是精確的原有文本，會(huì)有很多的冗余。

　　而搜索引擎模式更加智能，它是在精確模式的基礎(chǔ)上對(duì)長(zhǎng)詞進(jìn)行再次切分，將長(zhǎng)的詞語(yǔ)變成更短的詞語(yǔ)，進(jìn)而適合搜索引擎對(duì)短詞語(yǔ)的索引和搜索，在一些特定場(chǎng)合用的比較多。

　　jieba庫(kù)提供的常用函數(shù)：

函數(shù)	描述
jieba.lcut(s)	精確模式，能夠?qū)σ粋€(gè)字符串精確地返回分詞結(jié)果，而分詞的結(jié)果使用列表形式來(lái)組織。例如： >>> import jieba >>> jieba.lcut("中國(guó)是一個(gè)偉大的國(guó)家") Building prefix dict from the default dictionary ... Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 2.489 seconds. Prefix dict has been built successfully. [’中國(guó)’, ’是’, ’一個(gè)’, ’偉大’, ’的’, ’國(guó)家’]
jieba.lcut(s,cut_all=True)	全模式，能夠返回一個(gè)列表類型的分詞結(jié)果，但結(jié)果存在冗余。例如： >>> import jieba >>> jieba.lcut("中國(guó)是一個(gè)偉大的國(guó)家",cut_all=True) [’中國(guó)’, ’國(guó)是’, ’一個(gè)’, ’偉大’, ’的’, ’國(guó)家’]
jieba.lcut_for_search(s)	搜索引擎模式，能夠返回一個(gè)列表類型的分詞結(jié)果，也存在冗余。例如： >>> import jieba >>> jieba.lcut_for_search("中華人民共和國(guó)是偉大的") [’中華’, ’華人’, ’人民’, ’共和’, ’共和國(guó)’, ’中華人民共和國(guó)’, ’是’, ’偉大’, ’的’]
jieba.add_word(w)	向分詞詞庫(kù)添加新詞w

　　最重要的就是jieba.lcut(s)函數(shù)，完成精確的中文分詞。

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來(lái)的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

Python中文分詞庫(kù)-jieba簡(jiǎn)介