Publications

2026

Agentified Agent Assessment Improves Standardization Across Heterogeneous Scenarios

Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Daniel Miao, Evan Sandoval, Donghyun Lee, Chenguang Wang, Wenbo Guo, and Dawn Song

2026

Under review
Agents’ Last Exam

Yiyou Sun, Jianhong Tu, Kyle Montgomery, Vincent Siu, Chenguang Wang, Dawn Song, and others

2026

Under review
FaultLoc: Evaluating AI Coding Agents for Fault Localization from Crash to Cause

Jianhong Tu, Shubham Gaur, Rathik Murtinty, Zhun Wang, Tianneng Shi, Dawn Song, and Chenguang Wang

2026

Under review
CyberCycle: A Scalable Real-World Benchmark for AI Agents’ End-to-End Cybersecurity Capabilities

Tianneng Shi, Robin Rheem, Dongwei Jiang, Francisco De La Riega, Mona Wang, Zhun Wang, Jingzhi Jiang, Alexander Cheung, Sean Tai, Jonah Cha, Jianhong Tu, Gabriel Han, Chenguang Wang, Wenbo Guo, Jingxuan He, and Dawn Song

In Proceedings of the International Conference on Machine Learning, 2026
FICO: Evaluating Vision-Language Models under Visual Fidelity and Compression at Scale

Jianhong Tu, Kyle Montgomery, Nicholas Crispino, Chenguang Wang, and Dawn Song

In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2026

2025

MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models

Jianhong Tu, Zhuohao Ni, Nicholas Crispino, Zihao Yu, Michael Bendersky, Beliz Gunel, Ruoxi Jia, Xin Liu, Lingjuan Lyu, Dawn Song, and Chenguang Wang

In Proceedings of the 3rd Workshop on Towards Knowledgeable Foundation Models (KnowFM), Aug 2025

PDF
Predicting Task Performance with Context-aware Scaling Laws

Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, and Chenguang Wang

In Proceedings of the 3rd Workshop on Towards Knowledgeable Foundation Models (KnowFM), Aug 2025

PDF
A Comprehensive Survey of Evaluating Multimodal Foundation Models: Hierarchical Perspective and Extensive Applications

Ye Yuan, Junyu Luo, Guancheng Wan, Jinsheng Huang, Chengwu Liu, Junwei Yang, Yifang Qin, Zhiping Xiao, Qingqing Long, Meng Xiao, Yiqiao Jin, Jianhong Tu, Yuqi Chen, Wei Ju, Zhongwei Wan, Yusheng Zhao, Xiao Luo, Yiwei Fu, Yizhou Sun, Wei Wang, Chenguang Wang, and Ming Zhang

May 2025

Under review at ARR

PDF

2024

⭐ Failure in a population: Tauopathy disrupts homeostatic set-points in emergent dynamics despite stability in the constituent neurons

James N. McGregor, Clayton A. Farris, Sahara Ensley, Aidan Schneider, Leandro J. Fosque, Chao Wang, Elizabeth I. Tilden, Yuqi Liu, Jianhong Tu, Halla Elmore, Keenan D. Ronayne, Ralf Wessel, Eva L. Dyer, Kiran Bhaskaran-Nair, David M. Holtzman, and Keith B. Hengen

Neuron, May 2024

Cover Paper
Instruction-aware Visual Feature Extraction for Multimodal Large Language Model

Jianhong Tu, Erdong Chen, and Shuhan Zhang

Dec 2024

Preprint

PDF
Diversity-based Data Subset Selection with Deep Reinforcement Learning

Jianhong Tu and Anxu Wang

Dec 2024

Preprint

PDF