賽道 | 深蘭科(kē)技(jì )折桂 2021SemEval，雙賽道比拼中(zhōng)獲得“兩冠一亞”

2021-08-01

SemEval是由國(guó)際計算語言學(xué)協會（Association for Computational Linguistics，ACL）主辦(bàn)的國(guó)際語義評測大賽， SemEval是全球範圍内影響力最強、規模最大、參賽人數最多(duō)的語義評測競賽。自2001年起，SemEval已成功舉辦(bàn)十五屆，吸引了卡内基梅隆大學(xué)、哈工(gōng)大、中(zhōng)科(kē)院、微軟和百度等國(guó)内外一流高校、頂級科(kē)研機構和知名(míng)企業參與。

8 月 1 日- 6 日，SemEval2021與ACL-IJCNLP 2021 在泰國(guó)曼谷共同舉辦(bàn)。深蘭科(kē)技(jì )作(zuò)為(wèi)人工(gōng)智能(néng)頭部企業，參加了“詞彙複雜度預測（任務(wù)一）”和“幽默性和冒犯性文(wén)本識别與評估（任務(wù)七）”兩個大任務(wù)中(zhōng)的6個子任務(wù)，最終獲得2項第一、1項第二、1項第三，共計4項top3。團隊在賽事中(zhōng)運用(yòng)的相關技(jì )術和模型已成功應用(yòng)于公(gōng)司的自動化機器學(xué)習平台中(zhōng)。

undefined

賽事介紹

任務(wù)一Lexical Complexity Prediction (LCP)

任務(wù)一為(wèi)上下文(wén)中(zhōng)詞彙的複雜度預測任務(wù)，任務(wù)分(fēn)為(wèi)兩個子任務(wù)，子任務(wù)1為(wèi)預測單個單詞的複雜度，子任務(wù)2為(wèi)預測詞組（多(duō)詞表達）的複雜度。其中(zhōng)數據樣例如下：

undefined

Table 1 數據樣例

結合數據可(kě)以看出當前任務(wù)為(wèi)一個回歸任務(wù)，即基于上下文(wén)預測給定詞彙的複雜度，深蘭團隊在兩個子任務(wù)的排名(míng)如下，團隊在子任務(wù)1獲得了第二名(míng)，在子任務(wù)2中(zhōng)獲得了第一名(míng)。

undefined

子任務(wù)1 成績排名(míng)

子任務(wù)2 成績排名(míng)

任務(wù)七HaHackathon: Detecting and Rating Humor and Offense

任務(wù)七為(wèi)幽默性和冒犯性文(wén)本識别與評估任務(wù)，也是首次将幽默性和冒犯性識别結合起來的任務(wù)，因為(wèi)文(wén)本對一些用(yòng)戶來說是幽默的，但是對其他(tā)用(yòng)戶來說可(kě)能(néng)是冒犯的，舉辦(bàn)方共将任務(wù)劃分(fēn)為(wèi)幽默性識别和冒犯性識别，其中(zhōng)幽默性識别又(yòu)被劃分(fēn)為(wèi)三個子任務(wù)，共計4個子任務(wù)，分(fēn)别為(wèi)：

子任務(wù)1a：預測文(wén)本是否會被視為(wèi)幽默，為(wèi)二分(fēn)類任務(wù)；

子任務(wù)1b：如果文(wén)本被歸類為(wèi)幽默，預測它的幽默程度，為(wèi)回歸任務(wù)；

子任務(wù)1c：如果文(wén)本被歸類為(wèi)幽默，預測當前幽默評級是否有(yǒu)争議，二分(fēn)類任務(wù)；

子任務(wù)2a：預測文(wén)本的冒犯程度，為(wèi)回歸任務(wù)

深蘭團隊同時參加了4個任務(wù)，其中(zhōng)在任務(wù)1a、1c、2a取得了較好的成績，在子任務(wù)2a中(zhōng)獲得了第一名(míng)，在子任務(wù)1a中(zhōng)獲得了第三名(míng)，在子任務(wù)1c中(zhōng)獲得了第五名(míng)。

undefined

Task 1a

Task 2a

方案

上述幾個任務(wù)都是标準的分(fēn)類任務(wù)或者回歸任務(wù)，深蘭團隊采取了統一的模型和訓練方案，半自動化的完成模型的訓練和融合。模型采用(yòng)當前主流的預訓練模型，如BERT，基于預訓練模型構建分(fēn)類和回歸模型，模型圖如下：

undefined

模型圖

模型主要分(fēn)為(wèi)以下幾個部分(fēn)，文(wén)本輸入、CLS向量加權平均、全連接、Multi-sample dropout：

文(wén)本輸入針對句子級别分(fēn)類或者回歸模型，一般為(wèi)單個句子輸入或者兩個句子。例如對于上述Task7為(wèi)單個句子輸入，而對于Task1則需要變成兩個句子輸入，句子一為(wèi)待識别的詞，句子二為(wèi)上下文(wén)文(wén)本。

BERT有(yǒu)兩個特殊的标示符，分(fēn)别是[CLS]、[SEP]，其中(zhōng)[CLS]在訓練的時候，用(yòng)在Next Sentence Prediction任務(wù)上，[CLS]可(kě)以代表整個句子的語義表示，[CLS]通常用(yòng)在句子級别的分(fēn)類任務(wù)上。當前任務(wù)也是句子級别的分(fēn)類任務(wù)，深蘭團隊的模型也是采取[CLS]位置的向量進行分(fēn)類。為(wèi)了提取更深層次的語義特征，深蘭團隊不僅僅用(yòng)BERT最後一層的輸出，而是選取多(duō)層[CLS]位置向量進行加權平均，來代表整個句子的語義表示。

Multi-sample dropout 是dropout的一種變種，傳統 dropout 在每輪訓練時會從輸入中(zhōng)随機選擇一組樣本（稱之為(wèi) dropout 樣本），而 multi-sample dropout 會創建多(duō)個 dropout 樣本，然後平均所有(yǒu)樣本的損失，從而得到最終的損失，multi-sample dropout 共享中(zhōng)間的全連接層權重。通過綜合 M個dropout 樣本的損失來更新(xīn)網絡參數，使得最終損失比任何一個 dropout 樣本的損失都低。這樣做的效果類似于對一個minibatch中(zhōng)的每個輸入重複訓練 M 次。因此，它大大減少訓練叠代次數，從而大幅加快訓練速度。由于大部分(fēn)運算發生在 dropout 層之前的BERT層中(zhōng)，Multi-sample dropout 并不會重複這些計算，對每次叠代的計算成本影響不大。實驗表明，multi-sample dropout 還可(kě)以降低訓練集和驗證集的錯誤率和損失。

損失函數，當前模型可(kě)以适用(yòng)于分(fēn)類和回歸任務(wù)，隻需改變損失函數即可(kě)，對于分(fēn)類任務(wù)主要采用(yòng)的損失函數為(wèi)Cross Entropy 、Binary Cross Entropy、focal loss等，對于回歸任務(wù)主要采用(yòng)的損失函數為(wèi)均方誤差(Mean Square Error, MSE)、平均絕對誤差（Mean Absolute Error, MAE）等。

方案流程解讀

基于上述模型，深蘭的方案流程為(wèi)：

1、選擇合适的預訓練模型，首先基于構建好的baseline選取多(duō)種預訓練模型進行測試，如BERT、RoBERTa、ALBERT、ERNIE等，之後選取最好的或者幾個比較好的預訓練模型。

2、領域自适應預訓練(DAPT)，利用(yòng)在所屬的領域數據上繼續預訓練，例如針對Task1，數據主要來源為(wèi)醫(yī)療、聖經、歐洲議會記錄，則選擇這幾個領域的數據繼續進行掩碼語言模型任務(wù)（MLM），提升預訓練模型在當前領域上的性能(néng)。

3、任務(wù)自适應預訓練（TAPT），在當前和任務(wù)相關的數據集上進行掩碼語言模型（MLM）訓練提升預訓練模型在當前數據集上的性能(néng)。

4、對抗訓練，對抗訓練是一種引入噪聲的訓練方式，可(kě)以對參數進行正則化，從而提升模型的魯棒性和泛化能(néng)力。深蘭團隊采用(yòng)FGM(Fast Gradient Method)，通過在嵌入層加入擾動，從而獲得更穩定的單詞表示形式和更通用(yòng)的模型，以此提升模型效果。

5、僞标簽，将測試集打上标簽，并加入到訓練集中(zhōng)，增大訓練集的數量，提升最後的效果。

6、知識蒸餾，知識蒸餾由Hinton在2015年提出，主要應用(yòng)在模型壓縮上，通過知識蒸餾将大模型所學(xué)習到的有(yǒu)用(yòng)信息來訓練小(xiǎo)模型，在保證性能(néng)差不多(duō)的情況下進行模型壓縮。深蘭團隊将利用(yòng)模型壓縮的思想，采用(yòng)模型融合的方案，融合多(duō)個不同的模型作(zuò)為(wèi)teacher模型，将要訓練的作(zuò)為(wèi)student模型。

7、模型融合，為(wèi)了更好地利用(yòng)數據，深蘭團隊采用(yòng)7折交叉驗證，針對每個會使用(yòng)了多(duō)種預訓練模型，又(yòu)通過改變不同的參數随機數種子以及不同的訓練策略訓練了多(duō)個模型。最後采用(yòng)線(xiàn)性回歸、邏輯回歸等機器學(xué)習模型進行融合。

總結

利用(yòng)上述構建的框架，深蘭團隊參加了任務(wù)一和任務(wù)7共計6個子任務(wù)，獲得了4項獎項，充分(fēn)證明了方案的可(kě)行性，并且當前方案相關技(jì )術以及模型成功應用(yòng)于公(gōng)司的自動化機器學(xué)習平台中(zhōng)，深蘭自動化機器學(xué)習平台以低門檻、廣覆蓋、高精(jīng)度、少成本的優勢，為(wèi)各個行業領域提供核心算法。

新(xīn)聞推薦

科(kē)研榮譽

賽道 | 深蘭科(kē)技(jì )折桂 2021SemEval，雙賽道比拼中(zhōng)獲得“兩冠一亞”