👋 Hi, I'm Ming Zhang (张明), also known as DinoBro (恐龙哥) or DinoDoctor (恐龙博士). I am a third-year direct Ph.D. student at the FudanNLP Lab, School of Computer Science, Fudan University, co-advised by Prof. Qi Zhang, A.P. Tao Gui, and Prof. Xuanjing Huang.

🔬 My research focuses on Large Language Model Evaluation and Dialogue Systems. Recently, I have been particularly interested in Context Learning and AI for Academia.

🏢 I previously interned at ByteDance (2024.09 – 2025.09) and am currently interning at the Tencent Qingyun Program (2025.12 – Present).

📝 I serve as a Reviewer for AAAI, ACL ARR, ICLR, NeurIPS, and ICML, and as an Area Chair for ACL ARR.

Beyond research, my personal interests include:

🔭 I have been a lifelong astronomy enthusiast and served as President of the Fudan Astronomy Society during my undergraduate years.

⚽ I am a devoted fan of football — my all-time idol is Lionel Andrés Messi.

🎮 I served as Captain of the Fudan University League of Legends Varsity Team (Jungle), peaked at Challenger (最强王者) in S3 and S12, and my favorite champion lately is Gangplank.

📧 mingzhang23 [at] m [dot] fudan [dot] edu [dot] cn / konglongge [at] outlook [dot] com

💬 Please feel free to add me on WeChat: zanyingluan

🔥 News

2026.02 🎉 Thinking with Video accepted by CVPR 2026!
2026.02 📄 CL-bench is now available on arXiv!
2026.01 📄 OpenNovelty and TaxoBench are now available on arXiv!
2026.01 🎉 Game-RL accepted by ICLR 2026!
2025.11 🎉 Reasoning or Memorization and Speech Tokenizer accepted by AAAI 2026!
2025.09 🎉 EvaLearn accepted by NeurIPS 2025!
2025.08 🎉 LLMEval-Med accepted by EMNLP 2025!
2025.05 🎉 PFDial accepted by ACL 2025!
2025.01 🎉 Our LLM Agent Survey published in Science China Information Sciences!
2024.09 🎉 TransferTOD and MathTrap accepted by EMNLP 2024!
2024.07 🎉 Mousi accepted by COLM 2024!
2023.12 🎉 LLMEval accepted by AAAI 2024!

⭐ Selected Works

^* denotes co-first author, ^† denotes corresponding author.

Context Learning

CL-bench: A Benchmark for Context Learning

Shihan Dou^*, Ming Zhang^*, Zhangyue Yin^*, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou^†, Tao Gui^†, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao

A comprehensive benchmark for evaluating context learning capabilities of large language models, providing systematic assessment across diverse context-dependent tasks.

Paper Code Leaderboard

AI for Academia

OpenNovelty: An LLM-Powered Agentic System for Verifiable Scholarly Novelty Assessment

Ming Zhang^*†, Kexin Tan^*, Yueyuan Huang^*, Yujiong Shen, Chunchun Ma, Li Ju, Xinran Zhang, Yuhui Wang, Wenqing Jing, Jingyi Deng, Huayu Sha, Binze Hu, Jingqi Tong, Changhao Jiang, Yage Geng, Yuankai Ying, Yue Zhang, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang^†, Xuanjing Huang

An LLM-powered agentic system that performs verifiable scholarly novelty assessment, automatically evaluating the originality of research ideas through systematic literature analysis.

Paper Code Website

LLM Evaluation

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Ming Zhang^*†, Yujiong Shen^*, Jingyi Deng^*, Yuhui Wang^*, Huayu Sha, Kexin Tan, Qiyuan Peng, Yue Zhang, Junzhe Wang, Shichun Liu, Yueyuan Huang, Jingqi Tong, Changhao Jiang, Yilong Wu, Zhihao Zhang, Mingqi Wu, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang^†, Xuanjing Huang

A large-scale longitudinal study on the robustness and fairness of LLM evaluation, addressing critical issues in benchmarking consistency and providing reliable evaluation methodologies.

Paper Code

LLM Evaluation

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving NeurIPS 2025

Shihan Dou^*, Ming Zhang^*, Chenhao Huang, Jiayi Chen, Feng Chen, Shichun Liu, Yan Liu, Chenxiao Liu, Cheng Zhong, Zongzhang Zhang, Tao Gui^†, Chao Xin, Chengzhi Wei, Lin Yan, Yonghui Wu, Qi Zhang^†, Xuanjing Huang^†

A novel framework for quantifying the learning capability and efficiency of large language models through sequential problem solving, providing new insights into how LLMs acquire and apply knowledge.

Paper Code

Agent Survey

The Rise and Potential of Large Language Model Based Agents: A Survey SCIS

Zhiheng Xi^*, Wenxiang Chen^*, Xin Guo^*, Wei He^*, Yiwen Ding^*, Boyang Hong^*, Ming Zhang^*, Junzhe Wang^*, Senjie Jin^*, Enyu Zhou^*, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, Qi Zhang^†, Tao Gui^†

A comprehensive survey on LLM-based agents covering their construction, applications, and evaluation. This highly influential work provides a systematic overview of the emerging field of autonomous agents powered by large language models. Published in Science China Information Sciences.

Paper Code

📝 Publications

LLM Evaluation

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation EMNLP 2025

Ming Zhang^*, Yujiong Shen^*, Zelin Li^*, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang^†, Xuanjing Huang^†

Paper Code

LLMEval: A Preliminary Study on How to Evaluate Large Language Models AAAI 2024

Yue Zhang^*, Ming Zhang^*, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao Gui, Qi Zhang^†, Xuanjing Huang

Paper Code

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning EMNLP 2024

Jun Zhao^*, Jingqi Tong^*, Yurong Mou, Ming Zhang, Qi Zhang^†, Xuanjing Huang

Paper Code

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang

(Alphabetical order. Main contributor of text and code modalities.)

Paper

AI for Academia

Can Deep Research Agents Retrieve and Organize? Evaluating the Synthesis Gap with Expert Taxonomies

Ming Zhang^*†, Jiabao Zhuang^*, Wenqing Jing^*, Kexin Tan^*, Ziyu Kong, Jingyi Deng, Yujiong Shen, Yuhang Zhao, Ning Luo, Renzhe Zheng, Jiahui Lin, Mingqi Wu, Long Ma, Shihan Dou, Tao Gui, Qi Zhang^†, Xuanjing Huang

Paper Code

WisPaper: Your AI Scholar Search Engine

Li Ju^*, Jun Zhao^*, Mingxu Chai, Ziyu Shen, Xiangyang Wang, Yage Geng, Chunchun Ma, Hao Peng, Guangbin Li, Tao Li, Chengyong Liao, Fu Wang, Xiaolong Wang, Junshen Chen, Rui Gong, Shijia Liang, Feiyan Li, Ming Zhang, Kexin Tan, Jujie Ye, Zhiheng Xi, Shihan Dou, Tao Gui, Yuankai Ying, Yang Shi, Yue Zhang, Qi Zhang^†

Paper Website

Dialogue Systems

PFDial: A Structured Dialogue Instruction Fine-tuning Method Based on UML Flowcharts ACL 2025

Ming Zhang^*, Yuhui Wang^*, Yujiong Shen^*, Tingyi Yang, Changhao Jiang, Yilong Wu, Shihan Dou, Qinhao Chen, Zhiheng Xi, Zhihao Zhang, Yi Dong, Zhen Wang, Zhihui Fei, Mingyang Wan, Tao Liang, Guojun Ma, Qi Zhang^†, Tao Gui, Xuanjing Huang

Paper Code

TransferTOD: A Generalizable Chinese Multi-domain Task-oriented Dialogue System with Transfer Capabilities EMNLP 2024

Ming Zhang^*, Caishuang Huang^*, Yilong Wu^*, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao, Junjie Ye, Qi Zhang^†, Tao Gui, Xuanjing Huang

Paper Code

Others

Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training

Changhao Jiang^*†, Ming Zhang^*, Yifei Cao^*, Junjie Ye, Xiaoran Fan, Shihan Dou, Zhiheng Xi, Jiajun Sun, Yi Dong, Yujiong Shen, Jingqi Tong, Baoyu Fan, Tao Gui, Qi Zhang^†, Xuanjing Huang

Paper Code

MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

Hui Li^*, Changhao Jiang^*, Hongyu Wang^*, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji^†, Tao Gui^†, Qi Zhang^†, Xuanjing Huang^†

Paper Code

Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning ICLR 2026

Jingqi Tong^*, Jixin Tang^*, Hangcheng Li^*, Yurong Mou^*, Ming Zhang, Jun Zhao^†, Yanbo Wen, Fan Song, Jiahao Zhan, Yuyang Lu, Chaoran Tao, Zhiyuan Guo, Jizhou Yu, Tianhao Cheng, Changhao Jiang, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Weifeng Ge, Guanhua Chen, Tao Gui, Xipeng Qiu^†, Qi Zhang^†, Xuanjing Huang

Paper Code

From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling

Yifei Cao^*, Changhao Jiang^*, Jiabao Zhuang^*, Jiajun Sun^*, Ming Zhang, Zhiheng Xi, Hui Li, Shihan Dou, Yuran Wang, Yunke Zhang, Tao Ji, Tao Gui^†, Qi Zhang, Xuanjing Huang

Paper

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm CVPR 2026

Jingqi Tong^*, Yurong Mou^*, Hangcheng Li^*, Mingzhe Li^*, Yongzhuo Yang^*, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao^†, Xuanjing Huang, Xipeng Qiu^†

Paper Code Website

What Is Wrong with Your Code Generated by Large Language Models? An Extensive Study SCIS

Shihan Dou^*, Haoxiang Jia^*, Shenxi Wu, Huiyuan Zheng, Muling Wu, Yunbo Tao, Ming Zhang, Mingxu Chai, Jessica Fan, Zhiheng Xi, Rui Zheng, Yueming Wu, Ming Wen^†, Tao Gui^†, Qi Zhang, Xipeng Qiu, Xuanjing Huang^†

Paper

SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents

Changhao Jiang^*†, Jiajun Sun^*, Yifei Cao^*, Jiabao Zhuang^*, Hui Li, Xiaoran Fan, Ming Zhang, Junjie Ye, Shihan Dou, Zhiheng Xi, Jingqi Tong, Yilong Wu, Baoyu Fan, Tao Ji^†, Tao Gui^†, Qi Zhang, Xuanjing Huang

Paper Code

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination AAAI 2026

Mingqi Wu^*, Zhihao Zhang^*, Qiaole Dong^*, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Huijie Lv, Ming Zhang, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang^†

Paper Code

VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision

Dingwei Zhu^*, Shihan Dou^*, Zhiheng Xi^*, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui^†

Paper

Mousi: Poly-Visual-Expert Vision-Language Models COLM 2024

Xiaoran Fan^*, Tao Ji^*, Changhao Jiang^*, Shuo Li^*, Senjie Jin^*, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui^†, Qi Zhang^†, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang

Paper Code

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study AAAI 2026

Xiaoran Fan^*, Zhichao Sun^*, Yangfan Gao^*, Jingfei Xiong^*, Hang Yan^*, Yifei Cao, Jiajun Sun, Shuo Li, Zhihao Zhang, Zhiheng Xi, Yuhao Zhou, Senjie Jin, Changhao Jiang, Junjie Ye, Ming Zhang, Rui Zheng, Zhenhua Han, Yunke Zhang, Demei Yan, Shaokang Dong, Tao Ji^†, Tao Gui^†

Paper Code Demo

Ming Zhang

🔥 News

⭐ Selected Works

CL-bench: A Benchmark for Context Learning

OpenNovelty: An LLM-Powered Agentic System for Verifiable Scholarly Novelty Assessment

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving NeurIPS 2025

The Rise and Potential of Large Language Model Based Agents: A Survey SCIS

📝 Publications

LLM Evaluation

AI for Academia

Dialogue Systems

Others

📊 Visitors