Publications

785 results for Trustworthy AI

GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models
- - Zhaitang Li
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models
- - Jinghan Jia
  - Jiancheng Liu
  - et al.
- 2024
- NeurIPS 2024
Privacy without Noisy Gradients: Slicing Mechanism for Generative Model Training
- - Kristjan Greenewald
  - Yuancheng Yu
  - et al.
- 2024
- NeurIPS 2024
Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
- - Gabriel Rioux
  - Apoorva Nitsure
  - et al.
- 2024
- NeurIPS 2024
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia
- - Yufang Hou
  - Alessandra Pascale
  - et al.
- 2024
- NeurIPS 2024
Weak Supervision Performance Evaluation via Partial Identification
- - Felipe Maia Polo
  - Subha Maity
  - et al.
- 2024
- NeurIPS 2024
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models
- - Chia-yi Hsu
  - Yu-Lin Tsai
  - et al.
- 2024
- NeurIPS 2024
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
- - Shengyun Peng
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Abductive Reasoning in Logical Credal Networks
- - Radu Marinescu
  - Junkyu Lee
  - et al.
- 2024
- NeurIPS 2024