.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

Aug 07, 2020

2012年至今,細(xì)數(shù)深度學(xué)習(xí)領(lǐng)域這些年取得的經(jīng)典成果


自2006年Hinton發(fā)表經(jīng)典論文以來(lái),深度學(xué)習(xí)領(lǐng)域又取得了哪些突破性成果呢?

Google Brain前員工Denny Britz 在本文中進(jìn)行了回顧整理,按時(shí)間順序介紹了從2012年到2020年深度學(xué)習(xí)領(lǐng)域的數(shù)項(xiàng)關(guān)鍵性科研成就。

2006年,Hinton 發(fā)表了一篇論文《A Fast Learning Algorithm for Deep Belief Nets》,提出了降維和逐層預(yù)訓(xùn)練方法,該方法可成功運(yùn)用于訓(xùn)練多層神經(jīng)網(wǎng)絡(luò),使深度網(wǎng)絡(luò)的實(shí)用化成為可能。該論文也被視作深度學(xué)習(xí)領(lǐng)域的經(jīng)典之作。

從原理來(lái)看,深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)緊密相關(guān):神經(jīng)網(wǎng)絡(luò)由一層一層的神經(jīng)元構(gòu)成,層數(shù)越多,神經(jīng)網(wǎng)絡(luò)越深,而所謂“深度學(xué)習(xí)”就是模擬人類(lèi)大腦,運(yùn)用深層神經(jīng)網(wǎng)絡(luò)對(duì)輸入進(jìn)行“思考”、“分析”并獲得目標(biāo)輸出的過(guò)程。

那么, 自2006年Hinton發(fā)表經(jīng)典論文以來(lái),深度學(xué)習(xí)領(lǐng)域又取得了哪些突破性成果呢?

Google Brain前員工Denny Britz 在本文中進(jìn)行了回顧整理,按時(shí)間順序介紹了從2012年到2020年深度學(xué)習(xí)領(lǐng)域的數(shù)項(xiàng)關(guān)鍵性科研成就,包括運(yùn)用AlexNet和Dropout處理ImageNet(2012年)、使用深度強(qiáng)化學(xué)習(xí)玩Atari游戲(2013年)、應(yīng)用注意力機(jī)制的編碼器-解碼器網(wǎng)絡(luò)(2014年)、生成對(duì)抗網(wǎng)絡(luò)(2014-2015年)、ResNet(2015年)、Transformer模型(2017年)、BERT與微調(diào)自然語(yǔ)言處理模型(2018年),以及2019-2020年及之后的BIG語(yǔ)言模型與自監(jiān)督學(xué)習(xí)等。這些技術(shù)大部分應(yīng)用于視覺(jué)、自然語(yǔ)言、語(yǔ)音與強(qiáng)化學(xué)習(xí)等領(lǐng)域。

這些研究均已經(jīng)過(guò)時(shí)間的考驗(yàn),并得到廣泛認(rèn)可。本文不僅列舉了2012年以來(lái)的部分出色成果,還涉及到大量有利于了解當(dāng)今深度學(xué)習(xí)研究現(xiàn)狀的基礎(chǔ)技術(shù)與知識(shí)。深度學(xué)習(xí)基礎(chǔ)技術(shù)的概念、方法和代碼等具有相似性,研究人員可以觸類(lèi)旁通。比方說(shuō),一個(gè)終生研究計(jì)算機(jī)視覺(jué)(computer vision, CV)的學(xué)者很快也能適應(yīng)自然語(yǔ)言處理(Natural Language Processing, NLP),在NLP方向獲得成就。如果你是深度學(xué)習(xí)領(lǐng)域的入門(mén)者,以下閱讀將幫助你了解現(xiàn)有先進(jìn)技術(shù)的來(lái)歷與最初發(fā)明用途,方便你更好地開(kāi)展自己的研究工作。

2012年:應(yīng)用AlexNet和Dropout 方法處理ImageNet

相關(guān)論文:

ImageNet Classification with Deep Convolutional Neural Networks (2012),https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

Improving neural networks by preventing co-adaptation of feature detectors (2012) ,https://arxiv.org/abs/1207.0580

One weird trick for parallelizing convolutional neural networks (2014) ,https://arxiv.org/abs/1404.5997

具體實(shí)現(xiàn):

用PyTorch搭建AlexNet,https://pytorch.org/hub/pytorch_vision_alexnet/

用TensorFlow搭建AlexNet,https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py

圖源:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

AlexNet算法被認(rèn)為是深度學(xué)習(xí)和人工智能研究蓬勃發(fā)展的主要原因。它是一種以Yann LeCun提出的早期LeNet網(wǎng)絡(luò)為基礎(chǔ)的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networ)。AlexNet結(jié)合芯片GPU的功能和算法優(yōu)勢(shì),大大超越了以前其他對(duì)ImageNet數(shù)據(jù)集中的圖像進(jìn)行分類(lèi)的方法。它的出現(xiàn)再一次證明了神經(jīng)網(wǎng)絡(luò)的強(qiáng)大。此外,AlexNet是最早運(yùn)用Dropout的算法之一,之后也成為了提高各類(lèi)深度學(xué)習(xí)模型泛化能力的一項(xiàng)關(guān)鍵技術(shù)。

AlexNet 所使用的架構(gòu),包含一系列卷積層、ReLU非線性(ReLU nonlinearity)和最大池化算法(max-pooling),被廣泛視為后來(lái)CV架構(gòu)創(chuàng)建和擴(kuò)展的標(biāo)準(zhǔn)。如今,諸如PyTorch之類(lèi)的軟件庫(kù)具有十分強(qiáng)大的功能,加上與目前最新的神經(jīng)網(wǎng)絡(luò)架構(gòu)相比,AlexNet的構(gòu)成十分簡(jiǎn)單,僅需幾行代碼即可通過(guò) PyTorch 等軟件庫(kù)實(shí)現(xiàn)。有一點(diǎn)要注意的是:上述所介紹到的AlexNet的實(shí)現(xiàn)使用了論文《One weird trick for parallelizing convolutional neural networks》里所提到的網(wǎng)絡(luò)變量。

2013年:使用深度強(qiáng)化學(xué)習(xí)玩轉(zhuǎn) Atari 游戲

相關(guān)論文:

Playing Atari with Deep Reinforcement Learning (2013),https://arxiv.org/abs/1312.5602

具體實(shí)現(xiàn):

用PyTorch搭建深度強(qiáng)化學(xué)習(xí)模型(DQN),https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

用TensorFlow搭建DQN,https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial

圖源:圖源:

https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

DeepMind團(tuán)隊(duì),基于近年來(lái)在圖像識(shí)別和GPU方面取得的一系列突破,成功訓(xùn)練了一個(gè)能通過(guò)原始像素輸入來(lái)玩Atari游戲的網(wǎng)絡(luò)。不僅如此,同一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)還在沒(méi)有被告知詳細(xì)游戲規(guī)則的前提下,學(xué)會(huì)了玩7款不同的游戲,從而證明了該方法的普適性。

強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)(比如圖像分類(lèi))的不同之處在于:在強(qiáng)化學(xué)習(xí)里,智能體必須在多個(gè)時(shí)間步(time step)內(nèi)學(xué)會(huì)如何獲得最多獎(jiǎng)勵(lì)。具體來(lái)說(shuō),就是它必須贏得比賽,而不是僅僅預(yù)測(cè)某個(gè)標(biāo)簽。由于智能體與環(huán)境直接互動(dòng),且每個(gè)動(dòng)作都會(huì)影響下一個(gè)動(dòng)作,所以訓(xùn)練數(shù)據(jù)不是獨(dú)立且分布均勻的,這就使得許多機(jī)器學(xué)習(xí)模型的訓(xùn)練十分不穩(wěn)定。這個(gè)現(xiàn)象可以使用經(jīng)驗(yàn)回放(experience replay)等技術(shù)來(lái)解決。

盡管這項(xiàng)研究沒(méi)有實(shí)現(xiàn)明顯的算法創(chuàng)新,但卻巧妙地結(jié)合了現(xiàn)有技術(shù)、基于GPU訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)、經(jīng)驗(yàn)回放以及一些額外的數(shù)據(jù)處理技術(shù),并獲得了大多數(shù)人始料未及的出色結(jié)果。這也提升了研究人員擴(kuò)展深度強(qiáng)化學(xué)習(xí)技術(shù)的信心,有望借鑒這個(gè)成果來(lái)解決包括圍棋、Dota 2、Starcraft 2等等更復(fù)雜的任務(wù)。

Atari游戲在之后也成為了強(qiáng)化學(xué)習(xí)研究的標(biāo)準(zhǔn)基準(zhǔn)。早期的深度強(qiáng)化學(xué)習(xí)方法僅超過(guò)人類(lèi)基本水平、學(xué)會(huì)7款游戲,但在后來(lái)幾年時(shí)間里,基于這些思路所取得的進(jìn)步,開(kāi)始在更多游戲里打敗人類(lèi)。其中有一款游戲叫《蒙特祖瑪?shù)膹?fù)仇》,以需要長(zhǎng)期規(guī)劃而聞名,被認(rèn)為是難度最大的游戲之一。直到最近,AI 已經(jīng)在57款游戲中超越了人類(lèi)玩家的基準(zhǔn)線。

2014年:采用“注意力”的編碼器-解碼器網(wǎng)絡(luò)

相關(guān)論文:

Sequence to Sequence Learning with Neural Networks,https://arxiv.org/abs/1409.3215Neural

Machine Translation by Jointly Learning to Align and Translate,https://arxiv.org/abs/1409.0473

具體實(shí)現(xiàn):

用Pytorch搭建采用注意力的Seq2Seq,https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#

用TensorFlow搭建采用注意力的Seq2Seq,https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt

圖源:


圖源:

https://ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html

深度學(xué)習(xí)最卓越的成就大多體現(xiàn)在與視覺(jué)相關(guān)的任務(wù)中,并且由卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)。雖然NLP研究已使用LSTM網(wǎng)絡(luò)和編碼器-解碼器架構(gòu)在語(yǔ)言建模和翻譯方面取得了一定成功,但該領(lǐng)域也是直到注意力機(jī)制的出現(xiàn)才開(kāi)始取得令人矚目的成就。

在處理語(yǔ)言時(shí),每個(gè) token 都會(huì)被輸入循環(huán)網(wǎng)絡(luò)(如LSTM)中,并對(duì)先前處理過(guò)的輸入保持了記憶。token可能是字符,可能是單詞,也可能是介于字符和單詞之間的某物。換句話說(shuō),每個(gè)token都是一個(gè)時(shí)間步,一個(gè)句子就像一個(gè)時(shí)間序列。這些循環(huán)模型通常不擅長(zhǎng)處理間隔長(zhǎng)時(shí)間的依賴關(guān)系。在處理序列時(shí),他們很容易“忘記”較早之前的輸入,因?yàn)樗鼈兊奶荻刃枰ㄟ^(guò)大量時(shí)間步進(jìn)行傳播。通過(guò)梯度下降方法優(yōu)化這些模型非常困難。

新的注意力機(jī)制則有助于緩沖這一阻礙。它引入快捷連接(shortcut connections),給網(wǎng)絡(luò)提供了一個(gè)能夠在早期的時(shí)間步上適應(yīng)性地“回頭看”的選擇。這些連接可以幫助網(wǎng)絡(luò)決定生成特定輸出時(shí)哪些輸入是重要的。一個(gè)典型的例子就是機(jī)器翻譯:在生成輸出詞時(shí),它通常會(huì)映射一個(gè)甚至多個(gè)特定的輸入詞。

2014年:Adam優(yōu)化器 

相關(guān)論文:

Adam: A Method for Stochastic Optimization,https://arxiv.org/abs/1412.6980

具體實(shí)現(xiàn):用PyTorch搭建實(shí)現(xiàn)Adam優(yōu)化器,https://d2l.ai/chapter_optimization/adam.html

PyTorch Adam實(shí)現(xiàn),https://pytorch.org/docs/master/_modules/torch/optim/adam.html

TensorFlow Adam實(shí)現(xiàn),https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/optimizer_v2/adam.py#L32-L281

圖源:圖源:

http://arxiv.org/abs/1910.11758

神經(jīng)網(wǎng)絡(luò)通過(guò)運(yùn)用優(yōu)化器將損失函數(shù)(如平均分類(lèi)誤差)最小化進(jìn)行訓(xùn)練。優(yōu)化器負(fù)責(zé)調(diào)整網(wǎng)絡(luò)參數(shù)來(lái)使網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)。大多數(shù)優(yōu)化器都是基于隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)的變量。但是,也有很多此類(lèi)優(yōu)化器包含了可調(diào)節(jié)的參數(shù),比如優(yōu)化器本身的學(xué)習(xí)率。針對(duì)特定問(wèn)題尋找正確設(shè)置不僅能減少訓(xùn)練時(shí)間,還能通過(guò)找到局部最小損失函數(shù)來(lái)獲取更好的結(jié)果。

大型研究實(shí)驗(yàn)室往往會(huì)運(yùn)行成本高昂的、使用了復(fù)雜學(xué)習(xí)速率調(diào)度器(learning rate schedules)的超參數(shù)檢索來(lái)獲取簡(jiǎn)單但對(duì)超參數(shù)敏感的優(yōu)化器(比如SGD)中最好的那一個(gè)。有時(shí)候,他們的效果雖然超越了現(xiàn)有基準(zhǔn),但是往往是花費(fèi)了大筆資金調(diào)節(jié)優(yōu)化器的結(jié)果??蒲姓撐睦锿粫?huì)提到研究成本這些細(xì)節(jié)。也就是說(shuō),研究人員如果沒(méi)有足夠的資金預(yù)算來(lái)優(yōu)化他們的優(yōu)化器,就只能深陷“效果不佳”的泥潭。

Adam優(yōu)化器主張使用梯度的一階矩和二階矩來(lái)自動(dòng)調(diào)整學(xué)習(xí)率。研究也表明,運(yùn)用Adam優(yōu)化器所獲取的結(jié)果非?!棒敯簟?,且對(duì)超參數(shù)的調(diào)整不敏感。換句話說(shuō),Adam在大部分情況下無(wú)需太多調(diào)整就可以正常運(yùn)行。就研究結(jié)果而言,目前一個(gè)被調(diào)整得很好的SGD表現(xiàn)更好,但Adam能幫助研究人員以較少成本進(jìn)行研究。這是因?yàn)椋绻麑?shí)現(xiàn)的效果不好,研究者起碼知道并不是由于某個(gè)調(diào)整得不佳的優(yōu)化器所造成的。

2014/2015年:生成對(duì)抗網(wǎng)絡(luò)(GAN

相關(guān)論文:

Generative Adversarial Networks,https://arxiv.org/abs/1406.2661

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,https://arxiv.org/abs/1511.06434

具體實(shí)現(xiàn):

用PyTorch搭建DCGAN,https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html

用TensorFlow搭建DCGAN,https://www.tensorflow.org/tutorials/generative/dcgan

圖源:圖源:

https://developers.google.com/machine-learning/gan/gan_structure

生成模型(如變分自編器)必須對(duì)整個(gè)數(shù)據(jù)分布進(jìn)行建模,圖像數(shù)據(jù)的像素極大,不像判別模型(discriminative model)一樣僅是區(qū)分貓貓與狗狗。生成模型的目標(biāo)是建立看起來(lái)逼真的數(shù)據(jù)樣本,比如你可能在某處已經(jīng)見(jiàn)過(guò)的人臉圖像。生成對(duì)抗網(wǎng)絡(luò)(GAN)就屬于這類(lèi)生成模型。

GAN的基本內(nèi)容是對(duì)生成器(generator)和判別器(discriminator)進(jìn)行一前一后的訓(xùn)練。判別器經(jīng)過(guò)訓(xùn)練來(lái)分辨真實(shí)圖像和生成圖像,而生成器的目標(biāo)就是生成一些能夠騙過(guò)判別器的樣本。隨著訓(xùn)練的深入,判別器識(shí)別偽造物體的能力會(huì)提高,但生成器也會(huì)越來(lái)越狡猾,并漸漸生成看起來(lái)更逼真的樣本。第一代GAN生成的圖像分辨率低,模糊不清,并且訓(xùn)練起來(lái)十分不穩(wěn)定。但隨著時(shí)間的推移,研究者發(fā)明了許多改良版本,包括深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN)、CycleGAN、StyleGAN(v2)等等。這些改良版本基于第一代 GAN 的思路,成功生成高分辨率的、擬真的圖像和視頻。

2015年:殘差網(wǎng)絡(luò)(ResNet)

相關(guān)論文:

Deep Residual Learning for Image Recognition,https://arxiv.org/abs/1512.03385

具體實(shí)現(xiàn):用PyTorch搭建ResNet,https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

用TensorFlow搭建ResNet,https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/applications/resnet.py

研究人員基于AlexNet 的突破進(jìn)行了一段時(shí)間的深入研究,提出了一系列基于卷積神經(jīng)網(wǎng)絡(luò)的性能更佳的架構(gòu),如VGGNet、Inception等等。而ResNet 就是緊接這一波迅速發(fā)展的新架構(gòu)的下一代神經(jīng)網(wǎng)絡(luò)架構(gòu)。迄今為止,ResNet的變體被視為各類(lèi)任務(wù)的基準(zhǔn)模型架構(gòu)和更復(fù)雜架構(gòu)的基本構(gòu)建要素,并得到廣泛應(yīng)用。

ResNet的出眾,不僅是因?yàn)樗贗LSVRC 2015的分類(lèi)挑戰(zhàn)賽中取得了第一名的好成績(jī),還因?yàn)榕c其他網(wǎng)絡(luò)架構(gòu)相比,它具有明顯的深度優(yōu)勢(shì)。論文《Deep Residual Learning for Image Recognition》里介紹到該網(wǎng)絡(luò)最深的層數(shù)可以達(dá)到1000層,而且,雖然該網(wǎng)絡(luò)在基準(zhǔn)任務(wù)上的表現(xiàn)略遜于101層和152層的網(wǎng)絡(luò),但總體表現(xiàn)依然十分優(yōu)秀。這類(lèi)深度網(wǎng)絡(luò)的訓(xùn)練是一個(gè)非常有挑戰(zhàn)性的優(yōu)化問(wèn)題,這是因?yàn)樵谟?xùn)練深層網(wǎng)絡(luò)的過(guò)程中,梯度會(huì)隨著層數(shù)的增加而遞減直至消失,這使得網(wǎng)絡(luò)優(yōu)化異常艱難。梯度消失的問(wèn)題在序列模型(sequence model)中也有出現(xiàn)。極少研究人員相信訓(xùn)練層數(shù)如此深的網(wǎng)絡(luò)能達(dá)到出色而穩(wěn)定的表現(xiàn)結(jié)果。

ResNet應(yīng)用恒等快捷連接(identity shortcut connections)來(lái)促進(jìn)梯度的流動(dòng)。ResNet只需要逐層學(xué)習(xí)“變化量(Δ)”,難度較低,往往比學(xué)習(xí)整個(gè)變化量容易。這種恒等連接是“高速網(wǎng)絡(luò)”(Highway Network)里所提到的連接特例,反過(guò)來(lái)又受到長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的門(mén)控機(jī)制(gating mechanism)的啟發(fā)。

2017年:Transformer模型

相關(guān)論文:

Attention is All You Need,https://arxiv.org/abs/1706.03762

具體實(shí)現(xiàn):PyTorch: 應(yīng)用nn.Transformer和TorchText的序列到序列模型,https://pytorch.org/tutorials/beginner/transformer_tutorial.html

Tensorflow: 用于語(yǔ)言理解的Transformer模型,https://www.tensorflow.org/tutorials/text/transformer

HuggingFace的Transformers開(kāi)發(fā)庫(kù),https://github.com/huggingface/transformers

圖源:https://arxiv.org/abs/1706.03762

上文提到,具有注意力的序列到序列模表現(xiàn)地非常好,但由于該模型的循環(huán)特性需要用到序列算法,所以還存在一些缺點(diǎn)。它們很難并行處理,因?yàn)槊看沃贿\(yùn)用一個(gè)步驟處理輸入。每個(gè)時(shí)間步都受到上一個(gè)時(shí)間步的影響。這也使得時(shí)間步很難擴(kuò)展為長(zhǎng)序列。即使具備了注意力機(jī)制,模型仍然在對(duì)復(fù)雜的長(zhǎng)程依賴關(guān)系建模上面臨挑戰(zhàn)。大多數(shù)“工作”似乎都是在循環(huán)層中完成的。

Transformer模型有效解決了上述問(wèn)題。模型應(yīng)用多個(gè)前饋?zhàn)宰⒁鈱樱╢eed-forward self-attention layers)取代循環(huán)層(recurrence),從而完全消除循環(huán)過(guò)程,從而能夠平行處理所有輸入并且生成輸入和輸出間相對(duì)較短的路徑(這就意味著梯度下降更易于優(yōu)化)。在這種情況下,模型能夠進(jìn)行快速訓(xùn)練,易于擴(kuò)展并處理更多數(shù)據(jù)。此外,Transformer模型使用了位置編碼來(lái)向網(wǎng)絡(luò)傳遞輸入順序(這是循環(huán)模型無(wú)法做到的)。一開(kāi)始學(xué)習(xí)Transformer模型也許有些摸不著頭腦,但如果想了解更多Transformer模型的應(yīng)用原理,可以參考以下鏈接里的講解:http://jalammar.github.io/illustrated-transformer

Transformer模型的表現(xiàn)超出了所有人的期待。在接下來(lái)的幾年里,Transfomer會(huì)成為大多數(shù)序列任務(wù)(如NLP)甚至是計(jì)算機(jī)視覺(jué)的架構(gòu)標(biāo)準(zhǔn)。

2018年:BERT和微調(diào)NLP模型

相關(guān)論文:

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,https://arxiv.org/abs/1810.04805

具體實(shí)現(xiàn):

具備Hugging Face的微調(diào)BERT,https://huggingface.co/transformers/training.html

預(yù)訓(xùn)練指的是事先訓(xùn)練一個(gè)模型來(lái)執(zhí)行特定任務(wù),然后將訓(xùn)練過(guò)程中學(xué)到的參數(shù)作為初始值以繼續(xù)學(xué)習(xí)其他相關(guān)任務(wù)。直觀來(lái)說(shuō),就是如果一個(gè)模型已經(jīng)學(xué)會(huì)進(jìn)行圖像分類(lèi)、區(qū)分貓貓和狗狗,也應(yīng)當(dāng)大概了解圖像和毛茸動(dòng)物的一般特征。當(dāng)我們對(duì)這個(gè)能夠區(qū)分貓貓狗狗的模型進(jìn)行微調(diào),來(lái)對(duì)狐貍進(jìn)行分類(lèi)時(shí),我們希望這個(gè)模型能夠比必須從頭開(kāi)始訓(xùn)練的模型表現(xiàn)得更好。同樣地,一個(gè)已經(jīng)學(xué)會(huì)預(yù)測(cè)句子里的下一個(gè)單詞的模型,也應(yīng)該對(duì)人類(lèi)語(yǔ)言模式有一定的了解。我們可能期望這個(gè)模型可以作為翻譯或情感分析等相關(guān)任務(wù)的好的初始化模型。

預(yù)訓(xùn)練和微調(diào)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中都已有了成功的應(yīng)用。雖然預(yù)訓(xùn)練和微調(diào)在計(jì)算機(jī)視覺(jué)領(lǐng)域中作為標(biāo)準(zhǔn)已有很長(zhǎng)一段時(shí)間了,但要在 NLP 領(lǐng)域得到很好的應(yīng)用,似乎還困難重重。NLP 中取得的 SOAT 結(jié)果,依舊還是由于使用了完全監(jiān)督模型。

隨著Transformer的出現(xiàn),研究者們終于可以在 NLP 任務(wù)中很好地應(yīng)用預(yù)訓(xùn)練模型,并隨之提出了ELMo、ULMFiT和OpenAI's GPT等方法。

BERT 便是預(yù)訓(xùn)練模型在 NLP 領(lǐng)域取得的最新進(jìn)展,許多人認(rèn)為它開(kāi)啟了NLP研究的新時(shí)代。BERT并不像其他大多數(shù)模型一樣進(jìn)行預(yù)測(cè)下一個(gè)字的預(yù)訓(xùn)練。它所接受的預(yù)訓(xùn)練是預(yù)測(cè)整個(gè)句子被故意刪除/屏蔽的詞以及兩個(gè)句子之間是否有銜接關(guān)系。請(qǐng)注意:這些任務(wù)不需要用到標(biāo)注的數(shù)據(jù)。它可以在任何文本上進(jìn)行訓(xùn)練,而且適用于篇幅長(zhǎng)的文本。這個(gè)預(yù)訓(xùn)練模型可能已學(xué)會(huì)語(yǔ)言的一些普遍特征,之后可以微調(diào)來(lái)執(zhí)行有監(jiān)督的任務(wù)(比如回答問(wèn)題和預(yù)測(cè)情緒)。

BERT在許多不同類(lèi)型的任務(wù)中均有出色表現(xiàn)。之后BERT成為了XLNet、RoBERTa和ALBERT等先進(jìn)技術(shù)的奠基之作。 

2019/2020年及之后:BIG語(yǔ)言模型,自監(jiān)督學(xué)習(xí)?雷鋒網(wǎng)

《慘痛的教訓(xùn)》一文非常清晰地描述了深度學(xué)習(xí)發(fā)展史的趨勢(shì)。算法在并行化計(jì)算(更多數(shù)據(jù))和更多模型參數(shù)方面所取得了進(jìn)步,一次又一次地超越了所謂“更聰明的技術(shù)”。這個(gè)趨勢(shì)一直持續(xù)到2020年GPT-3的出現(xiàn)。GPT-3是一個(gè)由OpenAI創(chuàng)建的擁有1750億參數(shù)的巨大語(yǔ)言模型。盡管GPT-3的訓(xùn)練目標(biāo)和標(biāo)準(zhǔn)架構(gòu)十分簡(jiǎn)單,但卻展示了意料之外的良好泛化能力。

文章鏈接:http://www.incompleteideas.net/IncIdeas/BitterLesson.html

同樣的發(fā)展趨勢(shì)還包括對(duì)比性自監(jiān)督學(xué)習(xí)(contrastive self-supervised learning,如SimCLR)等能更好利用未標(biāo)記數(shù)據(jù)的方法。隨著模型變得越來(lái)越大,訓(xùn)練速度變得越來(lái)越快,這些能夠高效利用網(wǎng)頁(yè)上的大量未標(biāo)記數(shù)據(jù)以及能夠?qū)W習(xí)可遷移到其他任務(wù)上的通用知識(shí)的技術(shù),將變得越來(lái)越具有價(jià)值,越來(lái)越普遍使用。雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))



聯(lián)系我們



寬泛科技專(zhuān)注為人工智能、邊緣計(jì)算、影視后期、動(dòng)漫設(shè)計(jì)、商務(wù)應(yīng)用等領(lǐng)域,

提供基于人臉識(shí)別、深度學(xué)習(xí)、視覺(jué)計(jì)算、VR/AR/MR、桌面虛擬化、

數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)可視化、視訊會(huì)議等信息化解決方案及服務(wù)。

如果您有合作需求或?qū)氋F建議,歡迎來(lái)信。

郵箱:hezuo@kuanfans.com

合作熱線:(021) 5415 5559

官方網(wǎng)站:www.truecolorclub.cn