Federico Torrielli's picture

Federico Torrielli

EvilScript

·

https://federicotorrielli.github.io

AI & ML interests

AI Safety & Mechanistic interpretability

Recent Activity

authored a paper 39 minutes ago

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

authored a paper 4 days ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

upvoted a paper 5 days ago

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

View all activity

Organizations

EvilScript 's papers 5

arxiv:2606.10747

arxiv:2606.09697

arxiv:2605.31170

arxiv:2605.26045

arxiv:2605.07462