Tweeted By @ak92501

on 2021-09-27 (UTC)
research

Transformers Generalize Linearly
abs: https://t.co/ud0iUEYDyx

Transformers fail to generalize hierarchically across a wide variety of grammatical mapping tasks, but they exhibit an even stronger preference for linear generalization than comparable recurrent networks pic.twitter.com/VzbM2SQTZl
— AK (@ak92501) September 27, 2021

Tweeted By @ak92501

Tags