看到一个观点说的很好:MLP与transformer的关联在于MLP的权重在训练完成后不可更改,而transformer使用数据点之间的关系来动态影响权重;transformer与GNN之间的关联在于transformer将输入序列看作一个全联接图,使用多头注意力机制来更新邻居节点和自身的向量。是否可以借助GNN中的spectral方法论来对transformer中的attention机制做一定的替换呢?毕竟spectral的一些方法看起来非常fancy。