如果說(shuō)我看得比別人更遠(yuǎn)些,那是因?yàn)槲艺驹诰奕说募绨蛏稀?/span>
——?牛頓
當(dāng)談?wù)撋疃葘W(xué)習(xí)變成一件很酷的事情時(shí),,作為其子領(lǐng)域的自然語(yǔ)言處理(英文簡(jiǎn)稱(chēng)“NLP”)也逐漸被世人熟知,,站到了人工智能大舞臺(tái)的最前列,。
上一期,,我們借著深度學(xué)習(xí)三巨頭獲頒圖靈獎(jiǎng)的話(huà)題,,討論了深度學(xué)習(xí)技術(shù)的三大應(yīng)用領(lǐng)域,,特別是其中基于自然語(yǔ)言處理的金融科技應(yīng)用更是譽(yù)存科技的核心能力與業(yè)務(wù)之一,。
打鐵還需自身硬。今天我們不說(shuō)應(yīng)用,,只論這門(mén)技術(shù)的幾個(gè)重點(diǎn),。文章基于譽(yù)存科技深度學(xué)習(xí)小組工作經(jīng)驗(yàn)所撰,,希望會(huì)對(duì)初入人工智能領(lǐng)域,想要了解NLP的同學(xué)有所幫助,。
01 關(guān)于NLP的基本常識(shí)
在這里,,筆者首先要向大家推薦一本NLP領(lǐng)域的經(jīng)典教材《Speech and Language Processing 》,里面包含了 NLP 的基礎(chǔ)知識(shí),、語(yǔ)言學(xué)掃盲知識(shí)、基本任務(wù)以及解決思路,。閱讀此書(shū),,你會(huì)接觸到很多 NLP 的最基本任務(wù)和知識(shí),比如 tagging, parsing,,coreference, semantic role labeling 等等,,這對(duì)于全局地了解 NLP 領(lǐng)域有著極其重要的意義。
為什么要推薦大家讀這本書(shū)呢,?因?yàn)椴环e跬步無(wú)以至千里,。
以最近大熱BERT為例,它是谷歌發(fā)布的開(kāi)源自然語(yǔ)言處理模型,,在問(wèn)答系統(tǒng),、自然語(yǔ)言推理和釋義檢測(cè)(paraphrase detection)等任務(wù)中均取得了突破性的進(jìn)展。尤其是訓(xùn)練 ?language model (LM)的隨機(jī)替換更是刷新了各項(xiàng)NLP任務(wù)的成績(jī),。那么,,隨機(jī)替換是什么?其本質(zhì)就是語(yǔ)言建模里面基于 interpolation 的平滑方式,,而基于 interpolation 的 LM 平滑,,在本書(shū)中早有闡釋。
02 為什么學(xué)NLP很重要,?
眾所周知,,語(yǔ)言是人類(lèi)智慧的偉大結(jié)晶,也是人與人之間溝通交流的基本手段,,而機(jī)器作為異次元生物不能直接與人對(duì)話(huà),,需要特殊的傳感器和字節(jié)符號(hào),于是就產(chǎn)生了交流障礙,。自然語(yǔ)言處理作為一種人工智能技術(shù),,能幫助機(jī)器識(shí)別人類(lèi)語(yǔ)言,并分析,、理解,、改變或生成它,是打破人機(jī)交流屏障的重要技術(shù)手段,。
從目前的趨勢(shì)來(lái)看,,人工智能是未來(lái),,其發(fā)展勢(shì)不可擋。不必說(shuō)從事互聯(lián)網(wǎng)的人們已經(jīng)制造出的海量數(shù)據(jù)/信息,,未來(lái)還將持續(xù),,這大千世界還存在其他海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),。就線(xiàn)上的結(jié)構(gòu)化數(shù)據(jù)而言,,在大數(shù)據(jù)、云計(jì)算技術(shù)的通力整合下,,其技術(shù)已基本成熟和穩(wěn)定,,而對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,因?yàn)樯婕暗膹?fù)雜性,,在當(dāng)前和未來(lái)更多領(lǐng)域應(yīng)用都具有極大的困難和挑戰(zhàn),。
智能時(shí)代,不僅企業(yè)需要懂 NLP 技術(shù)的人來(lái)處理這些海量非結(jié)構(gòu)化數(shù)據(jù),,研發(fā)人員也需要利用NLP技術(shù)輕松實(shí)現(xiàn)人機(jī)交互,。從這點(diǎn)來(lái)看,NLP的重要性已不言而喻,,而各大招聘網(wǎng)站上列出的NLP算法專(zhuān)家薪酬更是一個(gè)簡(jiǎn)單粗暴但在理的佐證,。
03 經(jīng)典N(xiāo)LP模型
自然語(yǔ)言處理的第1步通常都是將輸入的文字轉(zhuǎn)成數(shù)字化。
NLP中最直觀的文字表示方法是One-hot Representation. 這種方法把每個(gè)詞表示為一個(gè)以詞匯量為大小的向量,。該向量中除了一個(gè)元素為1,,其他都為0.
這種表示方法很簡(jiǎn)潔,但不能編碼詞與詞之間的關(guān)系,,因?yàn)槿魏蝺蓚€(gè)詞的詞向量的的相似度都為0. Word Embedding (詞嵌入) 可以將詞表示從 One-hot Representation轉(zhuǎn)成一個(gè)定長(zhǎng)的,、連續(xù)的稠密向量。之所以稱(chēng)為稠密,,因?yàn)橐粋€(gè)詞經(jīng)詞嵌入之后,,特征維度相對(duì)于原來(lái)的維度(也即是詞匯表的大小)大為減小,。詞嵌入是語(yǔ)言模型的“副產(chǎn)品”,。語(yǔ)言模型的基本思想是對(duì)出現(xiàn)在上下文環(huán)境里的詞進(jìn)行預(yù)測(cè)。詞嵌入通過(guò)訓(xùn)練之后能夠體現(xiàn)出詞與詞之間的關(guān)系,。語(yǔ)言模型的訓(xùn)練屬于非監(jiān)督學(xué)習(xí),,故大規(guī)模訓(xùn)練語(yǔ)料(如wikipedia)很容易獲得。
通過(guò)訓(xùn)練一個(gè)語(yǔ)言模型,,得到詞嵌入矩陣,,再使用該矩陣作為輸入訓(xùn)練其他NLP模型,這種思想在一定程度上對(duì)BERT模型的提出產(chǎn)生影響,。
04 我們的應(yīng)用
前面已提到過(guò)BERT模型在NLP任務(wù)中刷新了多項(xiàng)記錄,。
譽(yù)存科技深度學(xué)習(xí)小組也結(jié)合NLP最新研發(fā)成果與公司的實(shí)際業(yè)務(wù)需求,,第一時(shí)間將BERT預(yù)訓(xùn)練模型運(yùn)用到了文本分類(lèi)、命名實(shí)體抽取,、新聞情感分析,、文本摘要、文本聚類(lèi)和中英文翻譯等方面,,并取得了很好的成果,。
下面簡(jiǎn)單介紹下這幾個(gè)具體NLP任務(wù)的作用:
文本分類(lèi)的目的是更加高效便捷找到用戶(hù)關(guān)心的文本類(lèi)型。
命名實(shí)體識(shí)別是抽取文本中人名,、地名和機(jī)構(gòu)名,,有助于找到文本的主體以及主體的屬性。
新聞情感分析是確定新聞內(nèi)容所描述的情感傾向,;不同的傾向意味著主體(個(gè)人或者公司)在經(jīng)歷好的、不好的或者中性的事件,。
文本摘要的目的是化繁為簡(jiǎn),,將目標(biāo)文檔從一個(gè)長(zhǎng)文本轉(zhuǎn)成一個(gè)短文本(通常在100字以?xún)?nèi)),并盡量保持核心思想不變,。
文本聚類(lèi)是將講述相同話(huà)題的新聞或者其他文檔分門(mén)別類(lèi),,有利于找出文檔中不同事件的受關(guān)注程度。
中英文翻譯則是將這兩種語(yǔ)言的文檔翻譯成某一種語(yǔ)言,,方便文檔的閱讀和理解,。
BERT模型的強(qiáng)大之處就在于,它已經(jīng)從數(shù)百萬(wàn)篇文章當(dāng)中學(xué)習(xí)到了字與字,、詞與詞之間的關(guān)系,。這種能力為構(gòu)建在BERT預(yù)訓(xùn)練模型之上的具體事務(wù)模型(如文本分類(lèi))提供了語(yǔ)境信息,使得事務(wù)模型在僅使用少量訓(xùn)練樣本的情況下就能表現(xiàn)就好的效果,。
最后,,給大家一個(gè)小小的建議:多看關(guān)于NLP的論文,特別是子領(lǐng)域相關(guān)的一些研究成果,,包括文本分類(lèi),、實(shí)體識(shí)別、情感分析等等,。另外,,基本的數(shù)學(xué)邏輯也需要搞懂,畢竟天天都在用算法,,無(wú)時(shí)無(wú)刻不在優(yōu)化,,數(shù)學(xué)太渣,會(huì)浪費(fèi)很多時(shí)間的,。
PS:本文部分圖片來(lái)源于網(wǎng)絡(luò),,如有侵權(quán)請(qǐng)聯(lián)系刪除,。