【新(xīn)聞晨報】上海本土AI企業深蘭科(kē)技(jì )刷榜NLP國(guó)際頂會挑戰賽,高比分(fēn)奪魁
2023-12-06類似于體(tǐ)育界的奧運會,在國(guó)際頂會參賽也成為(wèi)科(kē)研院所和科(kē)技(jì )巨頭的科(kē)技(jì )成果“試金石”。
近日,中(zhōng)國(guó)團隊再次刷新(xīn)了人工(gōng)智能(néng)自然語言處理(lǐ)領域國(guó)際頂級會議EMNLP 2023任務(wù)挑戰賽的榜單。在本次“PragTag-2023”和“Violence Inciting Text Detection(VITD)”兩項任務(wù)競賽中(zhōng),中(zhōng)國(guó)科(kē)研機構深蘭科(kē)學(xué)院團隊以“國(guó)産(chǎn)自研“多(duō)個預訓練模型為(wèi)基礎,并結合多(duō)種自然語言處理(lǐ)技(jì )術在與弗吉尼亞大學(xué)、加利福尼亞大學(xué)等美國(guó)知名(míng)高校在内的來自全球數十個團隊同場競技(jì )中(zhōng)脫穎而出,奪得兩項冠軍。據悉,這也是深蘭多(duō)次登頂該會議榜單。
其中(zhōng),“PragTag-2023”任務(wù)競賽的要求,是在論文(wén)評審過程中(zhōng),對同行評審内容中(zhōng)的每一句話,按照摘要、優點、不足、建議、結構、其他(tā)這六個類别進行分(fēn)類,以實現評審内容細粒度的自動分(fēn)類,并通過整合各方的評審意見,為(wèi)經驗不足的評審人提供評議幫助,該項任務(wù)的主要難點在于可(kě)參考的數據量少,缺少統一的分(fēn)類标準。
為(wèi)此,深蘭技(jì )術團隊采用(yòng)了兩個出色的預訓練模型“RoBERTa”和“DeBERTa”作(zuò)為(wèi)語言模型底座,在對其進行調整優化的基礎上,同時融入了諸如注意力池化、最大池化、多(duō)折交叉驗證、對抗訓練等技(jì )術,并經過多(duō)組數據實驗,通過使用(yòng)多(duō)個模型投票得到結果的方式,解決了相關難題,赢得這項任務(wù)競賽的冠軍。
“Violence Inciting Text Detection(暴力煽動文(wén)本檢測)”任務(wù)競賽的内容,則是檢測社交媒體(tǐ)上的文(wén)本是否包含暴力信息,并按照主動暴力、被動暴力、非暴力三個類别做分(fēn)類,目的是對發生在孟加拉國(guó)和印度西孟加拉邦的各種形式的社區(qū)暴力行為(wèi)進行分(fēn)類甄别,以及闡明發生這一複雜現象的緣由,并阻止同類事件的再次發生,緩解社會上的暴力傾向。
該任務(wù)的難點主要在于文(wén)本語言的特性,因為(wèi)孟加拉語雖然有(yǒu)2億多(duō)的使用(yòng)人口,但本身還是屬于小(xiǎo)語種,使用(yòng)範圍小(xiǎo),可(kě)參考的文(wén)本數據也少,同時孟加拉語有(yǒu)着句子普遍超長(cháng)、文(wén)本差異小(xiǎo)、語意語境難以辨别的特點,這就對計算機自然語言處理(lǐ)技(jì )術有(yǒu)着更高的要求。
為(wèi)了解決以上難題,深蘭技(jì )術團隊采用(yòng)了“分(fēn)而治之”的策略。針對小(xiǎo)語種問題,團隊選用(yòng)了“XLM-RoBERTa”和“banglabert”兩個與孟加拉語的語言特點相适配的預訓練模型;為(wèi)了解決句子超長(cháng)的問題,則采用(yòng)了多(duō)種裁剪策略分(fēn)别進行實驗,不斷優化語句裁剪效果;為(wèi)了提升語言預訓練模型的魯棒性,則通過在模型中(zhōng)加入注意力池化、最大池化、多(duō)折交叉驗證、對抗訓練、僞标簽、multi-sample dropout等技(jì )術,以增強模型承受故障和幹擾的能(néng)力。
最終,深蘭團隊以0.004分(fēn)的優勢,戰勝了包括弗吉尼亞大學(xué)、加利福尼亞大學(xué)、詹姆斯庫克大學(xué)等美國(guó)知名(míng)高校在内的來自全球的27支參賽隊伍,奪得該任務(wù)競賽的冠軍。
據悉,EMNLP與ACL、NAACL并稱為(wèi)三大全球自然語言處理(lǐ)領域頂級會議,由ACL旗下SIGDAT組織,在Google Scholar計算語言學(xué)刊物(wù)指标中(zhōng)排名(míng)第二,每年彙集全球頂尖實驗室組隊參加,共同探讨最新(xīn)進展和成果。
-
【央視新(xīn)聞】深蘭熊貓公(gōng)交亮相首部反映交通運輸業史詩紀錄片《交通中(zhōng)國(guó)》
媒體(tǐ)報道 -
央視《新(xīn)聞聯播》采訪深蘭科(kē)技(jì )陳海波:為(wèi)可(kě)持續發展貢獻中(zhōng)國(guó)科(kē)技(jì )力量
媒體(tǐ)報道 -
【上觀新(xīn)聞】長(cháng)甯企業研發的這款“缺陷檢測設備”為(wèi)制造業生産(chǎn)裝(zhuāng)上“火眼金睛”!
媒體(tǐ)報道 -
【經濟日報】深蘭科(kē)技(jì )公(gōng)司貫通基礎研究與應用(yòng)開發——人工(gōng)智能(néng)賦能(néng)傳統産(chǎn)業
媒體(tǐ)報道 -
【經濟日報】深蘭科(kē)技(jì )公(gōng)司貫通基礎研究與應用(yòng)開發—— 人工(gōng)智能(néng)賦能(néng)傳統産(chǎn)業
媒體(tǐ)報道 -
【河南日報】深蘭機器人商(shāng)丘制造基地在商(shāng)丘市梁園區(qū)投産(chǎn)
媒體(tǐ)報道 -
樹洞救援武漢中(zhōng)心正式挂牌,深蘭用(yòng)平台和技(jì )術為(wèi)公(gōng)益賦能(néng)
公(gōng)司新(xīn)聞 -
深蘭科(kē)技(jì )開啓“海外名(míng)校産(chǎn)業博士計劃”,董事長(cháng)陳海波被聘為(wèi)上海交通大學(xué)博士生導師
公(gōng)司新(xīn)聞 -
【人民(mín)日報】國(guó)内首份個人數字化産(chǎn)業報告發布
媒體(tǐ)報道 -
出席第三屆“一帶一路”峰會的斯裏蘭卡總統會見深蘭科(kē)技(jì )董事副總裁劉園桂一行
公(gōng)司新(xīn)聞 -
【每日經濟】專訪深蘭科(kē)技(jì )董事長(cháng)陳海波:大模型如何助力人類從“碳基生命”走向“矽基生命”?
媒體(tǐ)報道 -
【中(zhōng)新(xīn)網】上海人工(gōng)智能(néng)知名(míng)企業全面開啓AI産(chǎn)業鏈合作(zuò)營銷模式
公(gōng)司活動 -
深蘭科(kē)技(jì )科(kē)研團隊6篇論文(wén)被國(guó)際醫(yī)學(xué)信息科(kē)學(xué)頂尖學(xué)術會議收錄
公(gōng)司新(xīn)聞 -
國(guó)家知識産(chǎn)權局公(gōng)布《2023年度國(guó)家知識産(chǎn)權優勢企業名(míng)單》,深蘭科(kē)技(jì )成功入選
公(gōng)司新(xīn)聞 -
深蘭科(kē)技(jì )董事長(cháng)陳海波擔任上海市科(kē)學(xué)技(jì )術協會常委
公(gōng)司新(xīn)聞 -
深蘭科(kē)技(jì )500輛智能(néng)駕駛巴士訂單落地 ,人民(mín)日報等多(duō)家央媒報道
媒體(tǐ)報道 -
泰國(guó)社會發展和人類安(ān)全部部長(cháng)秘書率考察團到訪深蘭科(kē)技(jì )
公(gōng)司新(xīn)聞