ielab member

Xueguang Ma

External Member

PhD Student, University of Waterloo, Canada

Publications (54)

As listed on Google Scholar (since 2019) · metadata via OpenAlex · updated 2026-07-26 Google Scholar OpenAlex

2026

6 publications

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis
Z Li, D Jiang, X Ma, H Zhang, P Nie, Y Zhang, K Zou, J Xie, Y Zhang, ...

arXiv preprint arXiv:2603.20278 · 2026
AgentIR: Reasoning-Aware Retrieval for Deep Research Agents
Z Chen, X Ma, S Zhuang, J Lin, A Asai, V Zhong

arXiv preprint arXiv:2603.04384 · 2026
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning
Shengyao Zhuang, Xueguang Ma, Zheng Yao, Shuai Wang, Bevan Koopman, Jimmy Lin, Guido Zuccon

2026

PDF
Do We Still Need Text Features for Video Retrieval in the Era of Vision-Language Models?
JS Zhan, C Zhang, S Zhuang, X Ma, J Lin

European Conference on Information Retrieval, 380-387 · 2026
LACONIC: Dense-Level Effectiveness for Scalable Sparse Retrieval via a Two-Phase Training Curriculum
Zhichao Xu, Shengyao Zhuang, Xinyu Zhang, Xueguang Ma, Yijun Tian, Maitrey Mehta, Jimmy Lin, Vivek Srikumar

2026

PDF
ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget
N Thakur, Z Chen, X Ma, J Lin

arXiv preprint arXiv:2604.01195 · 2026

2025

13 publications

Pixelworld: Towards perceiving everything as pixels
Z Lyu, X Ma, W Chen

Transactions on Machine Learning Research · 2025
VISA: Retrieval Augmented Generation with Visual Source Attribution
Xueguang Ma, Shengyao Zhuang, Bevan Koopman, Guido Zuccon, Wenhu Chen, Jimmy Lin

2025

PDF
Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality
Xueguang Ma, Luyu Gao, Shengyao Zhuang, Jiaqi Samantha Zhan, Jamie Callan, Jimmy Lin

2025

PDF
Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks
Shengyao Zhuang, Ekaterina Khramtsova, Xueguang Ma, Bevan Koopman, Jimmy Lin, Guido Zuccon

2025

PDF
DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers
Xueguang Ma, Xi Victoria Lin, Barlas Oğuz, Jimmy Lin, Wen-tau Yih, Xilun Chen

2025

PDF
Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs
Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin

2025

PDF
R ² LLMs: Retrieval and Ranking with LLMs
Guido Zuccon, Shengyao Zhuang, Xueguang Ma

2025

PDF
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andy Liu, Joshua Green, Patel, Kshama, Meng, Ruoxi, Ming Su, Sahel Sharifymoghaddam, Yanxi Li et al.

arXiv (Cornell University) · 2025

PDF
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations
Yubo Wang, Xueguang Ma, Ping Nie, Zeng, Huaye, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lü, Yue Xiang, Wenhu Chen

arXiv (Cornell University) · 2025

PDF
General-Reasoner: Advancing LLM Reasoning Across All Domains
Xueguang Ma, Qian Liu, Dongfu Jiang, Ge ZHANG, Zejun Ma, Wenhu Chen

arXiv (Cornell University) · 2025

PDF
Gosling Grows Up: Retrieval with Learned Dense and Sparse Representations Using Anserini
Jimmy Lin, Arthur Haonan Chen, Carlos Lassance, Xueguang Ma, Ronak Pradeep, Tommaso Teofili, Jasper Xian, Jheng-Hong Yang, Brayden Zhong, Vincent Zhong

2025

PDF
Rethinking On-policy Optimization for Query Augmentation
Zhichao Xu, Shengyao Zhuang, Xueguang Ma, Chen, Bingsen, Yijun Tian, Fengran Mo, Li, Tao, Jie Cao, Vivek Srikumar

arXiv (Cornell University) · 2025

PDF
SIGIR-AP 2025 Tutorial on Retrieval and Ranking with LLMs (R2LLMs)
G Zuccon, S Zhuang, X Ma, B Koopman

Proceedings of the 2025 Annual International ACM SIGIR Conference on · 2025

2024

7 publications

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Yuansheng Ni, Max Ku et al.

2024
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering
Yubo Wang, Xueguang Ma, Wenhu Chen

2024

PDF
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval
Shengyao Zhuang, Xueguang Ma, Bevan Koopman, Jimmy Lin, Guido Zuccon

2024

PDF
Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models
Raphael Tang, Crystina Zhang, Xueguang Ma, Jimmy Lin, Ferhan Türe

2024

PDF
Unifying Multimodal Retrieval via Document Screenshot Embedding
Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin

2024

PDF
Resources for Brewing BEIR: Reproducible Reference Models and Statistical Analyses
Ehsan Kamalloo, Nandan Thakur, Carlos Lassance, Xueguang Ma, Jheng-Hong Yang, Jimmy Lin

2024
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
Ziyan Jiang, Xueguang Ma, Wenhu Chen

arXiv (Cornell University) · 2024

PDF

2023

11 publications

Precise Zero-Shot Dense Retrieval without Relevance Labels
Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan

2023

PDF
TheoremQA: A Theorem-driven Question Answering Dataset
Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia

2023

PDF
Zero-Shot Listwise Document Reranking with a Large Language Model
Xueguang Ma, Xinyu Zhang, Ronak Pradeep, Jimmy Lin

arXiv (Cornell University) · 2023

PDF
Tevatron: An Efficient and Flexible Toolkit for Neural Retrieval
Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan

2023
Toward Best Practices for Training Multilingual Dense Retrieval Models
Xinyu Zhang, Kelechi Ogueji, Xueguang Ma, Jimmy Lin

ACM Transactions on Information Systems · 2023

PDF
SLIM: Sparsified Late Interaction for Multi-Vector Retrieval with Inverted Indexes
Minghan Li, Sheng-Chieh Lin, Xueguang Ma, Jimmy Lin

2023
Anserini Gets Dense Retrieval: Integration of Lucene's HNSW Indexes
Xueguang Ma, Tommaso Teofili, Jimmy Lin

2023
Fine-Tuning LLaMA for Multi-Stage Text Retrieval
Xueguang Ma, Liang Wang, Nan Yang, Furu Wei, Jimmy Lin

arXiv (Cornell University) · 2023

PDF
Enhancing Sparse Retrieval via Unsupervised Learning
Xueguang Ma, Hengxin Fun, Xusen Yin, Antonio Mallia, Jimmy Lin

2023
Few-shot In-context Learning for Knowledge Base Question Answering
Tianle Li, Xueguang Ma, Alex Zhuang, 裕二池谷, Yu Su, Wenhu Chen

arXiv (Cornell University) · 2023

PDF
Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard
Ehsan Kamalloo, Nandan Thakur, Carlos Lassance, Xueguang Ma, Jheng-Hong Yang, Jimmy Lin

arXiv (Cornell University) · 2023

PDF

2022

8 publications

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen

arXiv (Cornell University) · 2022

PDF
To interpolate or not to interpolate: Prf, dense and sparse retrievers
H Li, S Wang, S Zhuang, A Mourad, X Ma, J Lin, G Zuccon

Proceedings of the 45th International ACM SIGIR Conference on Research and · 2022
Document Expansion Baselines and Learned Sparse Lexical Representations for MS MARCO V1 and V2
Xueguang Ma, Ronak Pradeep, Rodrigo Nogueira, Jimmy Lin

Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval · 2022

PDF
Improving Query Representations for Dense Retrieval with Pseudo Relevance Feedback: A Reproducibility Study
Hang Li, Shengyao Zhuang, Ahmed Mourad, Xueguang Ma, Jimmy Lin, Guido Zuccon

Lecture notes in computer science · 2022
Another Look at DPR: Reproduction of Training and Replication of Retrieval
Xueguang Ma, Kai Sun, Ronak Pradeep, Minghan Li, Jimmy Lin

Lecture notes in computer science · 2022
An Encoder Attribution Analysis for Dense Passage Retriever in Open-Domain Question Answering
Minghan Li, Xueguang Ma, Jimmy Lin

2022

PDF
Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management
Alexandre Parmentier, Robin Cohen, Xueguang Ma, Gaurav Sahu, Queenie Chen

International Journal of Data Science and Analytics · 2022

PDF
Pseudo-Relevance Feedback with Dense Retrievers in Pyserini
Hang Li, Shengyao Zhuang, Xueguang Ma, Jimmy Lin, Guido Zuccon

2022

2021

7 publications

Pyserini: A Python Toolkit for Reproducible Information Retrieval Research with Sparse and Dense Representations
Jimmy Lin, Xueguang Ma, Sheng-Chieh Lin, Jheng-Hong Yang, Ronak Pradeep, Rodrigo Nogueira

2021

PDF
Vera: Prediction Techniques for Reducing Harmful Misinformation in Consumer Health Search
Ronak Pradeep, Xueguang Ma, Rodrigo Nogueira, Jimmy Lin

2021
Simple and Effective Unsupervised Redundancy Elimination to Compress Dense Vectors for Passage Retrieval
Xueguang Ma, Minghan Li, Kai Sun, Ji Xin, Jimmy Lin

Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing · 2021

PDF
Sparsifying Sparse Representations for Passage Retrieval by Top-$k$ Masking
Jheng-Hong Yang, Xueguang Ma, Jimmy Lin

arXiv (Cornell University) · 2021

PDF
e-Health for Older Adults: Navigating Misinformation
Amira Ghenai, Xueguang Ma, Robin Cohen, Karyn Moffatt, Andy Yang, Yipeng Ji

2021

PDF
On the Separation of Logical and Physical Ranking Models for Text Retrieval Applications.
Jimmy Lin, Xueguang Ma, Joel Mackenzie, Antonio Mallia

2021
Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval
Xinyu Zhang, Xueguang Ma, Peng Shi, Jimmy Lin

2021

PDF

2020

2 publications

H2oloo at TREC 2020: When all you got is a hammer... Deep Learning, Health Misinformation, and Precision Medicine.
Ronak Pradeep, Xueguang Ma, Xinyu Zhang, Hang Cui, Ruizhou Xu, Rodrigo Nogueira, Jimmy Lin

Text REtrieval Conference · 2020
Scientific Claim Verification with VERT5ERINI
R. Gladwin Pradeep, Xueguang Ma, Rodrigo Nogueira, Jimmy Lin

arXiv (Cornell University) · 2020

PDF