Editing a classifier by rewriting its prediction rules

Santurkar, Shibani; Tsipras, Dimitris; Elango, Mahalaxmi; Bau, David; Torralba, Antonio; Madry, Aleksander

Editing a classifier by rewriting its prediction rules

Shibani Santurkar, Dimitris Tsipras, Mahalaxmi Elango, David Bau, Antonio Torralba, Aleksander Madry

Advances in Neural Information Processing Systems 34 (NeurIPS 2021)

Bibtex Paper Reviews And Public Comment » Supplemental

Abstract

We propose a methodology for modifying the behavior of a classifier by directly rewriting its prediction rules. Our method requires virtually no additional data collection and can be applied to a variety of settings, including adapting a model to new environments, and modifying it to ignore spurious features.

Abstract

Name Change Policy