热搜词:

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式

鍦ㄥ浘鍍�/瑙嗛�鐢熸垚浠诲姟涓�紝浼犵粺鐨勨€滀笅涓€涓猼oken棰勬祴鈥濇柟娉曟�闈�复涓ラ噸鐨勬晥鐜囩摱棰堛€�

鎬庝箞鍔烇紵

鏉ヨ嚜娴欏ぇ銆佷笂娴稟I Lab绛夋満鏋勭殑鐮旂┒浜哄憳鎻愬嚭浜嗕竴绉嶅叏鏂扮殑瑙嗚�鐢熸垚鑼冨紡鈥斺€�閭昏繎鑷�洖褰掑缓妯�锛圢eighboring Autoregressive Modeling, NAR锛夈€備笌浼犵粺鐨勨€滀笅涓€涓�token棰勬祴鈥濅笉鍚岋紝NAR妯″瀷閲囩敤浜嗏€滀笅涓€涓�閭诲煙棰勬祴鈥濈殑鏈哄埗锛屽皢瑙嗚�鐢熸垚杩囩▼瑙嗕负涓€绉嶉€愭�鎵╁睍鐨勨€滃�缁樷€濊繃绋嬨€�

鍏蜂綋鏉ヨ�锛孨AR妯″瀷浠庡垵濮媡oken寮€濮嬶紝鎸夌収涓庡垵濮媡oken鐨勬浖鍝堥】璺濈�浠庡皬鍒板ぇ渚濇�鐢熸垚token銆傝繖绉嶇敓鎴愰『搴忎笉浠呬繚鐣欎簡瑙嗚�鍐呭�鐨勭┖闂村拰鏃堕棿灞€閮ㄦ€э紝杩樺厑璁告ā鍨嬪湪鐢熸垚杩囩▼涓�苟琛岄�娴嬪�涓�浉閭荤殑token銆�

涓轰簡瀹炵幇杩欎竴鐐癸紝鐮旂┒浜哄憳寮曞叆浜�缁村害瀵煎悜鐨勮В鐮佸ご锛屾瘡涓�ご璐熻矗鍦ㄧ┖闂存垨鏃堕棿鐨勪竴涓�姝d氦缁村害涓婇�娴嬩笅涓€涓猼oken銆�

閫氳繃杩欑�鏂瑰紡锛孨AR妯″瀷鑳藉�鍦ㄦ瘡涓€姝ヤ腑骞惰�鐢熸垚澶氫釜token锛屼粠鑰屽ぇ骞呭噺灏戜簡鐢熸垚鎵€闇€鐨勬ā鍨嬪墠鍚戣�绠楁�楠ゃ€�

涓嬮潰鍏蜂綋鏉ョ湅銆�

浠庘€滀笅涓€涓猼oken鈥濆埌鈥滀笅涓€涓�偦鍩熲€�

鍦ㄥ綋浠婄殑AI棰嗗煙锛岃�瑙夌敓鎴愪换鍔�锛堝�鍥惧儚鍜岃�棰戠敓鎴愶級姝e彉寰楄秺鏉ヨ秺閲嶈�銆傛棤璁烘槸鐢熸垚閫肩湡鐨勫浘鍍忥紝杩樻槸鍒涢€犺繛璐�殑瑙嗛�锛孉I妯″瀷鐨勮〃鐜伴兘鍦ㄤ笉鏂�彁鍗囥€�

鐒惰€岋紝鐜版湁鐨勮�瑙夌敓鎴愭ā鍨嬶紝灏ゅ叾鏄�熀浜庤嚜鍥炲綊锛圓utoregressive, AR锛夌殑妯″瀷锛�闈�复鐫€涓ラ噸鐨勬晥鐜囩摱棰�銆�

浼犵粺鐨�鑷�洖褰�妯″瀷閫氬父閲囩敤鈥滀笅涓€涓猼oken棰勬祴鈥濈殑鑼冨紡锛屽嵆鎸夌収鍏夋爡椤哄簭閫愪釜鐢熸垚鍥惧儚鎴栬�棰戠殑token銆傝繖绉嶆柟娉曡櫧鐒剁畝鍗曠洿瑙傦紝浣嗗湪鐢熸垚楂樺垎杈ㄧ巼鍥惧儚鎴栭暱瑙嗛�鏃讹紝妯″瀷闇€瑕佽繘琛屾暟鍗冩�鐢氳嚦鏁颁竾娆$殑鍓嶅悜璁$畻锛屽�鑷寸敓鎴愰€熷害鏋佸叾缂撴參銆�

鏇寸碂绯曠殑鏄�紝鐜版湁鐨勫姞閫熸柟娉曞線寰€浠ョ壓鐗茬敓鎴愯川閲忎负浠d环銆�

渚嬪�锛屼竴浜涙柟娉曞皾璇曢€氳繃骞惰�鐢熸垚澶氫釜token鏉ユ彁楂樻晥鐜囷紝浣嗙敱浜庨偦杩戝浘鍍弔oken涔嬮棿鐨勫己鐩稿叧鎬т互鍙婁笂涓嬫枃淇℃伅鐨勭己澶憋紝杩欑�鏂规硶瀹规槗瀵艰嚧鐢熸垚璐ㄩ噺涓嬮檷銆�

鍥犳�锛�濡備綍鍦ㄤ繚鎸侀珮璐ㄩ噺鐢熸垚鐨勫悓鏃讹紝澶у箙鎻愬崌鐢熸垚鏁堢巼锛屾垚涓轰簡瑙嗚�鐢熸垚棰嗗煙鐨勪竴涓�叧閿�寫鎴�銆�

涓轰簡瑙e喅涓婅堪闂��锛岀爺绌朵汉鍛樻彁鍑轰簡閭昏繎鑷�洖褰掑缓妯★紙NAR锛夈€�

姝e�涓€寮€澶存彁鍒扮殑锛岄€氳繃寮曞叆缁村害瀵煎悜鐨勮В鐮佸ご锛屼娇姣忎釜澶磋礋璐e湪绌洪棿鎴栨椂闂寸殑涓€涓��浜ょ淮搴︿笂棰勬祴涓嬩竴涓猼oken锛屾渶缁堣�NAR妯″瀷鑳藉�鍦ㄦ瘡涓€姝ヤ腑骞惰�鐢熸垚澶氫釜token锛屼粠鑰屽ぇ骞呭噺灏戜簡鐢熸垚鎵€闇€鐨勬ā鍨嬪墠鍚戣�绠楁�楠ゃ€�

鍊煎緱涓€鎻愮殑鏄�紝缁村害瀵煎悜鐨勮В鐮佸ご璁捐�闈炲父鐏垫椿锛岃兘澶熻交鏉炬墿灞曞埌鏇撮珮缁寸殑瑙嗚�鍐呭�鐢熸垚銆�

渚嬪�锛屽湪瑙嗛�鐢熸垚浠诲姟涓�紝瑙嗛�鍙�互琚��涓轰笁缁存暟鎹�紙鏃堕棿銆佽�銆佸垪锛夛紝NAR妯″瀷鍙�渶澧炲姞涓€涓�椂闂寸淮搴︾殑瑙g爜澶达紝鍗冲彲鍦ㄦ椂闂淬€佽�銆佸垪涓変釜姝d氦缁村害涓婂苟琛岀敓鎴恡oken銆�

瀵逛簬鐢� t脳n脳n 涓猼oken琛ㄧず鐨勮�棰戯紝NAR妯″瀷浠呴渶 2n t鈭�2 姝ュ嵆鍙�畬鎴愮敓鎴愯繃绋嬶紝杩滆繙灏戜簬浼犵粺鈥滀笅涓€涓猼oken棰勬祴鈥濇ā鍨嬫墍闇€鐨� tn2 姝ャ€�

杩欎竴鏄捐憲鐨勬晥鐜囨彁鍗囦娇寰桸AR妯″瀷鍦ㄥ�鐞嗛珮鍒嗚鲸鐜囪�棰戠敓鎴愪换鍔℃椂鍏锋湁鏋佸ぇ鐨勪紭鍔裤€�

13.8鍊嶅悶鍚愭彁鍗�

鐮旂┒浜哄憳鍦ㄥ�涓��瑙夌敓鎴愪换鍔′笂瀵筃AR妯″瀷杩涜�浜嗗叏闈㈣瘎浼帮紝瀹為獙缁撴灉浠や汉鎸��锛�

1銆佺被鍒�浘鍍忕敓鎴�

鍦↖mageNet 256脳256鏁版嵁闆嗕笂锛屾嫢鏈�372M鍙傛暟鐨凬AR-L鍙栧緱浜嗘瘮鎷ユ湁1.4B鍙傛暟鐨凩lamaGen-XXL鏇翠綆鐨凢ID锛�3.06 vs. 3.09锛夛紝鍚屾椂灏嗙敓鎴愭�鏁板噺灏戜簡87.8%骞跺甫鏉ヤ簡13.8鍊嶇殑鍚炲悙鎻愬崌(195.4 images/s vs. 14.1 images/s)銆�

涓嶸AR-d16妯″瀷鐩告瘮锛孨AR-M鍙栧緱浜嗘洿浣庣殑FID鐨勫悓鏃讹紙3.27 vs. 3.30锛夛紝鑳藉甫鏉�92%鐨勫悶鍚愭彁鍗囷紙248.5 images/s vs. 129.3 images/s锛夈€�

杩欒�鏄庝笌鐜版湁鐨勮嚜鍥炲綊鐢熸垚鏂规硶鐩告瘮锛孨AR妯″瀷鍦ㄧ敓鎴愭晥鐜囧拰璐ㄩ噺涓婂潎鍙栧緱浜嗘樉钁楁彁鍗囥€�

2銆佺被鍒��棰戠敓鎴�

鍦║CF-101鏁版嵁闆嗕笂锛孨AR妯″瀷鐩告瘮鍩轰簬鈥滀笅涓€涓�瘝棰勬祴鈥濓紙next-token prediction锛夌殑鑷�洖褰掓ā鍨嬪湪鐢熸垚姝ラ�涓婂噺灏戜簡97.3%銆�

鐩告瘮骞惰�瑙g爜鏂规硶PAR锛孨AR鍦‵VD鏇翠綆鐨勫悓鏃跺皢鍚炲悙鎻愬崌浜�8.6鍊嶃€�

杩欏緱鐩婁簬NAR妯″瀷鍦ㄦ椂闂寸淮搴︿笂鐨勫苟琛岀敓鎴愯兘鍔涳紝纭�繚浜嗚�棰戝抚涔嬮棿鐨勮繛璐�€у拰楂樿川閲忕敓鎴愩€�

3銆佹枃鏈�埌鍥惧儚鐢熸垚

鍦℅enEval鍩哄噯娴嬭瘯涓�紝NAR妯″瀷浠呬娇鐢ㄤ簡0.4%鐨勮�缁冩暟鎹�紙6M锛変究鑾峰緱浜嗗拰Stable Diffusion v1.5鐩告寔骞崇殑缁煎悎寰楀垎銆�

涓庡弬鏁伴噺鏇村ぇ涓旀嫢鏈�1.4B璁�粌鏁版嵁鐨凜hameleon-7B妯″瀷鐩告瘮锛孨AR鐨勭患鍚堝緱鍒嗘洿楂橈紙0.43 vs. 0.39锛変笖灏嗗悶鍚愮巼鎻愰珮浜�166鍊嶃€�

杩欎簺瀹為獙缁撴灉涓嶄粎璇佹槑浜哊AR妯″瀷鍦ㄧ敓鎴愭晥鐜囦笂鐨勫法澶т紭鍔匡紝杩樺睍绀轰簡鍏跺湪鐢熸垚璐ㄩ噺涓婄殑鍗撹秺琛ㄧ幇銆�

姒傛嫭鑰岃█锛孨AR妯″瀷涓鸿�瑙夌敓鎴愪换鍔℃彁渚涗簡涓€绉嶉珮鏁堜笖楂樿川閲忕殑瑙e喅鏂规�锛屾湁鏈涘湪鏈�潵鐨凙I搴旂敤涓�彂鎸ラ噸瑕佷綔鐢ㄣ€�