Publications

2 results for Xiaomeng Xu

Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2025
- AAAI 2025
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024