bigcode
/

octocoder

@@ -91,8 +91,8 @@ print(tokenizer.decode(outputs[0]))
 ## Model
 - **Architecture:** GPT-2 model with multi-query attention and Fill-in-the-Middle objective
-- **Steps:** 250k pretraining & TODO instruction tuning
-- **Pretraining tokens:** 1 trillion pretraining & TODO instruction tuning
 - **Precision:** bfloat16
 ## Hardware
@@ -101,8 +101,8 @@ print(tokenizer.decode(outputs[0]))
   - **GPUs:** 512 Tesla A100
   - **Training time:** 24 days
 - **Instruction tuning:**
-  - **GPUs:** TODO Tesla A100
-  - **Training time:** TODO days
 ## Software

 ## Model
 - **Architecture:** GPT-2 model with multi-query attention and Fill-in-the-Middle objective
+- **Steps:** 250k pretraining & 30 instruction tuning
+- **Pretraining tokens:** 1 trillion pretraining & 2M instruction tuning
 - **Precision:** bfloat16
 ## Hardware
   - **GPUs:** 512 Tesla A100
   - **Training time:** 24 days
 - **Instruction tuning:**
+  - **GPUs:** 8 Tesla A100
+  - **Training time:** 4 hours
 ## Software