Framing Jailbreaks

Measures the model's performance against framing jailbreak attacks. (Higher score is better.)

Rank	Model	Provider
#1	Claude 4.5 Opus	Anthropic	98.86%	96.95%	99.65%	100.00%
#2	GPT 5 nano	OpenAI	98.55%	95.66%	100.00%	100.00%
#3	GPT 5 mini	OpenAI	98.14%	96.89%	99.28%	98.25%
#4	GPT 5.2	OpenAI	98.03%	96.92%	98.57%	98.62%
#5	Claude 4.6 Opus	Anthropic	97.11%	93.39%	99.65%	98.31%
#6	GPT 5.1	OpenAI	96.67%	92.44%	98.23%	99.32%
#7	Claude 4.5 Sonnet	Anthropic	96.17%	91.00%	97.52%	100.00%
#8	Claude 4.5 Haiku	Anthropic	95.56%	88.10%	98.58%	100.00%
#9	GPT 5	OpenAI	95.28%	93.85%	96.07%	95.92%
#10	Claude 4.1 Opus	Anthropic	94.55%	90.35%	93.97%	99.32%
#11	Claude 4.6 Sonnet	Anthropic	93.09%	90.47%	91.84%	96.96%
#12	Llama 3.1 405B Instruct OR	Meta	87.61%	76.21%	95.74%	90.88%
#13	Claude 3.5 Haiku 20241022	Anthropic	86.98%	79.74%	87.94%	93.24%
#14	Claude 3.7 Sonnet	Anthropic	86.93%	79.58%	88.30%	92.91%
#15	GPT OSS 120B	OpenAI	85.40%	75.36%	87.59%	93.24%
#16	Gemini 3.0 Pro Preview	Google	85.11%	76.54%	88.26%	90.54%
#17	Grok 4	xAI	80.57%	83.28%	78.37%	80.07%
#18	Kimi K2.5	Moonshot AI	76.71%	76.94%	70.82%	82.37%
#19	Gemini 3.1 Pro Preview	Google	74.91%	72.99%	73.76%	77.97%
#20	GPT 4o	OpenAI	65.85%	59.65%	65.96%	71.96%
#21	Qwen 3 Max	Alibaba Qwen	63.77%	68.17%	58.51%	64.63%
#22	Llama 3.3 70B Instruct OR	Meta	61.21%	50.96%	69.15%	63.51%
#23	Llama 3.1 8B Instruct	Meta	60.92%	62.70%	62.63%	57.43%
#24	GPT 4o mini	OpenAI	59.32%	59.81%	55.32%	62.84%
#25	Qwen Plus	Alibaba Qwen	59.22%	64.47%	55.71%	57.48%
#26	Gemini 2.5 Flash Lite	Google	56.91%	64.68%	49.65%	56.42%
#27	Llama 4 Maverick	Meta	55.12%	52.57%	63.48%	49.32%
#28	Gemini 2.5 Pro	Google	54.54%	59.16%	51.42%	53.04%
#29	Llama 4 Scout	Meta	53.67%	50.81%	50.00%	60.20%
#30	GPT 4.1 nano	OpenAI	53.41%	63.45%	42.20%	54.58%
#31	Gemini 2.5 Flash	Google	50.55%	56.84%	47.16%	47.64%
#32	Gemini 2.0 Flash Lite	Google	49.64%	57.33%	41.43%	50.17%
#33	Gemini 2.0 Flash	Google	48.90%	54.66%	45.74%	46.28%
#34	GPT 4.1	OpenAI	47.49%	53.95%	43.26%	45.27%
#35	Gemma 3 27B IT OR	Google	46.25%	51.45%	39.01%	48.31%
#36	GPT 4.1 mini	OpenAI	45.94%	60.06%	38.21%	39.53%
#37	Gemma 3 12B IT OR	Google	45.81%	53.14%	40.07%	44.22%
#38	Qwen 2.5 Max	Alibaba Qwen	44.38%	50.80%	41.13%	41.22%
#39	Grok 4 Fast No Reasoning	xAI	43.86%	52.99%	41.99%	36.61%
#40	Deepseek R1 0528	Deepseek	43.58%	56.59%	39.01%	35.14%
#41	Qwen 3 8B	Alibaba Qwen	41.68%	59.90%	34.40%	30.74%
#42	Grok 3 mini	xAI	41.23%	60.16%	34.04%	29.49%
#43	Deepseek V3.1	Deepseek	40.62%	49.20%	36.52%	36.15%
#44	Qwen 3 30B VL Instruct	Alibaba Qwen	38.74%	48.78%	32.62%	34.80%
#45	Magistral Medium Latest	Mistral	37.38%	59.65%	31.56%	20.95%
#46	Deepseek V3 0324	Deepseek	35.82%	45.89%	30.14%	31.42%
#47	Mistral Large 2	Mistral	33.62%	43.25%	32.62%	25.00%
#48	Mistral Medium Latest	Mistral	33.24%	43.60%	31.90%	24.23%
#49	Command A	Cohere	32.48%	41.16%	32.62%	23.65%
#50	Grok 3	xAI	31.29%	48.63%	27.66%	17.57%
#51	Deepseek V3	Deepseek	30.94%	44.61%	26.60%	21.62%
#52	Mistral Large 3	Mistral	28.08%	40.42%	24.91%	18.92%
#53	Mistral Small 3.2	Mistral	27.01%	42.77%	23.40%	14.86%
#54	Magistral Small Latest	Mistral	24.79%	43.73%	19.50%	11.15%
#55	Grok 2	xAI	21.40%	36.33%	17.86%	10.00%
	Mistral Small 3.1*	Mistral	N/A	N/A	N/A	N/A
	Claude 3.5 Sonnet*	Anthropic	N/A	N/A	N/A	N/A
	Gemini 1.5 Pro*	Google	N/A	N/A	N/A	N/A

* Models marked with an asterisk have partial scores.