Stuck on an issue?

Lightrun Answers was designed to reduce the constant googling that comes with debugging 3rd party libraries. It collects links to all the places you might be looking at while hunting down a tough bug.

And, if you’re still stuck at the end, we’re happy to hop on a call to see how we can help out.

Cannot load model parameters from checkpoint, please ensure that the architectures match

See original GitHub issue

Hi,

I’m following the story generation example, but I’m unable to train a pre-trained model as per the steps provided in the example. This is what I’m doing:

Cloning fairseq repo and installing requirements.
Downloading dataset:

curl https://s3.amazonaws.com/fairseq-py/data/writingPrompts.tar.gz | tar xvzf -

Trimming it to the first 1,000 words for each story, as suggested:

data = ["train", "test", "valid"]
for name in data:
  with open(name + ".wp_target") as f:
    stories = f.readlines()
  stories = [" ".join(i.split()[0:1000]) for i in stories]
  with open(name + ".wp_target", "w") as o:
    for line in stories:
      o.write(line.strip() + "\n")

Binarize dataset:

TEXT=examples/stories/writingPrompts
python preprocess.py --source-lang wp_source --target-lang wp_target \
  --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \
  --destdir data-bin/writingPrompts --padding-factor 1 --thresholdtgt 10 --thresholdsrc 10

Initial training of the model:

python train.py data-bin/writingPrompts -a fconv_self_att_wp --lr 0.25 --clip-norm 0.1 --max-tokens 1500 --lr-scheduler reduce_lr_on_plateau --decoder-attention True --encoder-attention False --criterion label_smoothed_cross_entropy --weight-decay .0000001 --label-smoothing 0 --source-lang wp_source --target-lang wp_target --gated-attention True --self-attention True --project-input True --pretrained False --save-interval-updates 50000

Once I get a couple of checkpoints generated, stop the training and run a new training, this time with “–pretrained True”:

python train.py data-bin/writingPrompts -a fconv_self_att_wp --lr 0.25 --clip-norm 0.1 --max-tokens 1500 --lr-scheduler reduce_lr_on_plateau --decoder-attention True --encoder-attention False --criterion label_smoothed_cross_entropy --weight-decay .0000001 --label-smoothing 0 --source-lang wp_source --target-lang wp_target --gated-attention True --self-attention True --project-input True --pretrained True --save-interval-updates 50000 --pretrained-checkpoint ./checkpoints/checkpoint_best.pt

Obtaining the following error:

Traceback (most recent call last):
  File "/home/nacho/git/fairseq/fairseq/utils.py", line 73, in load_model_state
    model.load_state_dict(state['model'], strict=True)
  File "/home/nacho/git/fairseq/fairseq/models/fairseq_model.py", line 64, in load_state_dict
    super().load_state_dict(state_dict, strict)
  File "/home/nacho/environments/deeplearning/lib/python3.6/site-packages/torch/nn/modules/module.py", line 719, in load_state_dict
    self.__class__.__name__, "\n\t".join(error_msgs)))
RuntimeError: Error(s) in loading state_dict for FConvModelSelfAtt:
	Missing key(s) in state_dict: "encoder.pretrained.encoder.embed_tokens.weight", "encoder.pretrained.encoder.embed_positions.weight", "encoder.pretrained.encoder.fc1.weight", "encoder.pretrained.encoder.fc1.bias", "encoder.pretrained.encoder.projections.2.weight", "encoder.pretrained.encoder.projections.2.bias", "encoder.pretrained.encoder.convolutions.0.weight", "encoder.pretrained.encoder.convolutions.0.bias", "encoder.pretrained.encoder.convolutions.1.weight", "encoder.pretrained.encoder.convolutions.1.bias", "encoder.pretrained.encoder.convolutions.2.weight", "encoder.pretrained.encoder.convolutions.2.bias", "encoder.pretrained.encoder.fc2.weight", "encoder.pretrained.encoder.fc2.bias", "decoder.pretrained_decoder.version", "decoder.pretrained_decoder.embed_tokens.weight", "decoder.pretrained_decoder.embed_positions.weight", "decoder.pretrained_decoder.fc1.weight", "decoder.pretrained_decoder.fc1.bias", "decoder.pretrained_decoder.projections.4.weight", "decoder.pretrained_decoder.projections.4.bias", "decoder.pretrained_decoder.projections.6.weight", "decoder.pretrained_decoder.projections.6.bias", "decoder.pretrained_decoder.convolutions.0.weight", "decoder.pretrained_decoder.convolutions.0.bias", "decoder.pretrained_decoder.convolutions.1.weight", "decoder.pretrained_decoder.convolutions.1.bias", "decoder.pretrained_decoder.convolutions.2.weight", "decoder.pretrained_decoder.convolutions.2.bias", "decoder.pretrained_decoder.convolutions.3.weight", "decoder.pretrained_decoder.convolutions.3.bias", "decoder.pretrained_decoder.convolutions.4.weight", "decoder.pretrained_decoder.convolutions.4.bias", "decoder.pretrained_decoder.convolutions.5.weight", "decoder.pretrained_decoder.convolutions.5.bias", "decoder.pretrained_decoder.convolutions.6.weight", "decoder.pretrained_decoder.convolutions.6.bias", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.0.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.0.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.0.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.0.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.1.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.1.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.1.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.1.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.2.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.2.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.2.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.2.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.3.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.3.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.3.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.3.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.4.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.4.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.4.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.4.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.5.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.5.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.5.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.5.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_q.bias", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_q.weight_g", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_q.weight_v", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_k.0.bias", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_k.0.weight_g", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_k.0.weight_v", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_v.0.bias", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_v.0.weight_g", "decoder.pretrained_decoder.attention.6.attention_module.in_proj_v.0.weight_v", "decoder.pretrained_decoder.attention.6.attention_module.out_proj.bias", "decoder.pretrained_decoder.attention.6.attention_module.out_proj.weight_g", "decoder.pretrained_decoder.attention.6.attention_module.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.0.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.0.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.0.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.0.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.0.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.0.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.0.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.0.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.0.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.0.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.0.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.0.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.0.ln.weight", "decoder.pretrained_decoder.selfattention.0.ln.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.1.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.1.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.1.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.1.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.1.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.1.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.1.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.1.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.1.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.1.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.1.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.1.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.1.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.1.ln.weight", "decoder.pretrained_decoder.selfattention.1.ln.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.2.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.2.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.2.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.2.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.2.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.2.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.2.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.2.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.2.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.2.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.2.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.2.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.2.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.2.ln.weight", "decoder.pretrained_decoder.selfattention.2.ln.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.3.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.3.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.3.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.3.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.3.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.3.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.3.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.3.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.3.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.3.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.3.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.3.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.3.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.3.ln.weight", "decoder.pretrained_decoder.selfattention.3.ln.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.4.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.4.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.4.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.4.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.4.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.4.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.4.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.4.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.4.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.4.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.4.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.4.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.4.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.4.ln.weight", "decoder.pretrained_decoder.selfattention.4.ln.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.5.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.5.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.5.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.5.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.5.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.5.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.5.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.5.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.5.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.5.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.5.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.5.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.5.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.5.ln.weight", "decoder.pretrained_decoder.selfattention.5.ln.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.0.out_proj.bias", "decoder.pretrained_decoder.selfattention.6.attention.0.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.0.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.1.out_proj.bias", "decoder.pretrained_decoder.selfattention.6.attention.1.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.1.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.2.out_proj.bias", "decoder.pretrained_decoder.selfattention.6.attention.2.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.2.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_q.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_k.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.0.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.0.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.0.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.2.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.2.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.2.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.4.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.4.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.in_proj_v.1.4.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.3.out_proj.bias", "decoder.pretrained_decoder.selfattention.6.attention.3.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.3.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.6.attention.out_proj.bias", "decoder.pretrained_decoder.selfattention.6.attention.out_proj.weight_g", "decoder.pretrained_decoder.selfattention.6.attention.out_proj.weight_v", "decoder.pretrained_decoder.selfattention.6.in_proj_q.weight", "decoder.pretrained_decoder.selfattention.6.in_proj_q.bias", "decoder.pretrained_decoder.selfattention.6.in_proj_k.weight", "decoder.pretrained_decoder.selfattention.6.in_proj_k.bias", "decoder.pretrained_decoder.selfattention.6.in_proj_v.weight", "decoder.pretrained_decoder.selfattention.6.in_proj_v.bias", "decoder.pretrained_decoder.selfattention.6.ln.weight", "decoder.pretrained_decoder.selfattention.6.ln.bias", "decoder.pretrained_decoder.attproj.0.weight", "decoder.pretrained_decoder.attproj.0.bias", "decoder.pretrained_decoder.attproj.1.weight", "decoder.pretrained_decoder.attproj.1.bias", "decoder.pretrained_decoder.attproj.2.weight", "decoder.pretrained_decoder.attproj.2.bias", "decoder.pretrained_decoder.attproj.3.weight", "decoder.pretrained_decoder.attproj.3.bias", "decoder.pretrained_decoder.attproj.4.weight", "decoder.pretrained_decoder.attproj.4.bias", "decoder.pretrained_decoder.attproj.5.weight", "decoder.pretrained_decoder.attproj.5.bias", "decoder.pretrained_decoder.attproj.6.weight", "decoder.pretrained_decoder.attproj.6.bias", "decoder.pretrained_decoder.fc2.weight", "decoder.pretrained_decoder.fc2.bias", "decoder.pretrained_decoder.fc3.weight", "decoder.pretrained_decoder.fc3.bias", "decoder.gate1.0.weight", "decoder.gate1.0.bias", "decoder.gate2.0.weight", "decoder.gate2.0.bias", "decoder.joining.0.weight", "decoder.joining.0.bias", "decoder.joining.1.weight", "decoder.joining.1.bias", "decoder.joining.3.weight", "decoder.joining.3.bias", "decoder.joining.4.weight", "decoder.joining.4.bias", "decoder.joining.6.weight", "decoder.joining.6.bias", "decoder.joining.7.weight", "decoder.joining.7.bias", "pretrained_encoder.encoder.embed_tokens.weight", "pretrained_encoder.encoder.embed_positions.weight", "pretrained_encoder.encoder.fc1.weight", "pretrained_encoder.encoder.fc1.bias", "pretrained_encoder.encoder.projections.2.weight", "pretrained_encoder.encoder.projections.2.bias", "pretrained_encoder.encoder.convolutions.0.weight", "pretrained_encoder.encoder.convolutions.0.bias", "pretrained_encoder.encoder.convolutions.1.weight", "pretrained_encoder.encoder.convolutions.1.bias", "pretrained_encoder.encoder.convolutions.2.weight", "pretrained_encoder.encoder.convolutions.2.bias", "pretrained_encoder.encoder.fc2.weight", "pretrained_encoder.encoder.fc2.bias". 

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "train.py", line 359, in <module>
    main(args)
  File "train.py", line 77, in main
    if not load_checkpoint(args, trainer, epoch_itr):
  File "train.py", line 315, in load_checkpoint
    eval(args.optimizer_overrides))
  File "/home/nacho/git/fairseq/fairseq/trainer.py", line 118, in load_checkpoint
    utils.load_model_state(filename, self.get_model())
  File "/home/nacho/git/fairseq/fairseq/utils.py", line 75, in load_model_state
    raise Exception('Cannot load model parameters from checkpoint, '
Exception: Cannot load model parameters from checkpoint, please ensure that the architectures match

As additional information, I’m using Ubuntu 18.04 and Cuda 10.0. I also tried on Windows (which I know it’s not supported) but I was still having the exact same issue.

By the way, I’m able to successfully generate prompts and stories of the pre-trained model, so that’s working fine:

python generate.py data-bin/writingPrompts --path checkpoints/checkpoint_best.pt --batch-size 1 --beam 1 --sampling --sampling-topk 10 --sampling-temperature 0.8 --nbest 1 --model-overrides "{'pretrained_checkpoint':'checkpoints/checkpoint_best.pt'}"

I saw a thread here with a similar issue, but I’m not sure how the OP solved it.

If you have any suggestions, please let me know!

Thanks in advance.

Issue Analytics

State:
Created 5 years ago
Comments:11 (2 by maintainers)

Top GitHub Comments

2reactions

bepierrecommented, Oct 10, 2018

Try to set the --save-dir flag to where your checkpoints folder is located (first maybe even without the --pretrained-checkpoint flag).

1reaction

huihuifancommented, Oct 11, 2018

Just saw this. Yes, I think that’s correct. I believe I didn’t have this issue because my --restore-file was by default pointing to the same location. I will update the documentation. Thank you for finding this, @Shuukaido and @bepierre!

Top Results From Across the Web

Cannot load model parameters from checkpoint, please ...

Hi, I'm following the story generation example, but I'm unable to train a pre-trained model as per the steps provided in the example....

Python load model state - ProgramCreek.com

This page shows Python code examples for load model state. ... Exception: raise Exception('Cannot load model parameters from checkpoint, ' 'please ensure ......

Saving and Loading Models - PyTorch

In PyTorch, the learnable parameters (i.e. weights and biases) of an torch.nn.Module model are contained in the model's parameters (accessed with model.

Models - Hugging Face

load_tf_weights ( Callable ) — A python method for loading a TensorFlow checkpoint in a PyTorch model, taking as arguments: model (PreTrainedModel) —...

Model saving & serialization APIs - Keras

save this is the Checkpoint even if the Checkpoint has a model attached. This means saving a tf.keras.Model using save_weights and loading into...