Sanjiv Kumar

Optimization

Structured Preconditioners in Adaptive Optimization: A Unified Analysis [pdf]

Shuo Xie, Tianhao Wang, Sashank J. Reddi, Sanjiv Kumar, Zhiyuan Li

International Conference on Machine Learning (ICML), 2025.

Architectures

LAuReL: Learned Augmented Residual Layer [pdf]

Gaurav Menghani, Ravi Kumar, Sanjiv Kumar

International Conference on Machine Learning (ICML), 2025.

Retrieval & Ranking

Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation [pdf]

Michal Lukasik, Lin Chen, Harikrishna Narasimhan, Aditya Krishna Menon, Wittawat Jitkrittum, Felix X. Yu, Sashank J. Reddi, Gang Fu, Mohammadhossein Bateni, Sanjiv Kumar

International Conference on Machine Learning (ICML), 2025.

Inference

Faster Cascades via Speculative Decoding [pdf]

Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

International Conference on Learning Representations (ICLR), 2025.

Reasoning

Reasoning with Latent Thoughts: On the Power of Looped Transformers [pdf]

Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi

International Conference on Learning Representations (ICLR), 2025.

Optimization

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [pdf]

Jui-Nan Yen, Si Si, Zhao Meng, Felix Yu, Venkata Sai Surya Subramanyam Duvvuri, Inderjit Dhillon, Cho-Jui Hsieh, Sanjiv Kumar

International Conference on Learning Representations (ICLR), 2025.

Retrieval & Ranking

Better autoregressive regression with LLMs via regression-aware fine-tuning [pdf]

Michal Lukasik, Zhao Meng, Harikrishna Narasimhan, Yin-Wen Chang, Aditya Krishna Menon, Felix Yu, Sanjiv Kumar

International Conference on Learning Representations (ICLR), 2025.

Training

Efficient stagewise pretraining via progressive subnetworks [pdf]

Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi, Sashank J. Reddi, Satyen Kale, Sanjiv Kumar

International Conference on Learning Representations (ICLR), 2025.

Optimization

On the Convergence of Adam and Beyond [pdf]

S. Reddi, S. Kale, S. Kumar

International Conference on Learning Representations (ICLR), 2018.

Reasoning

On the Inductive Bias of Stacking Towards Improving Reasoning [pdf]

Nikunj Saunshi, Stefani Karp, Shankar Krishnan, Sobhan Miryoosef, Sashank J. Reddi, Sanjiv Kumar

Neural Information Processing Systems (NeurIPS), 2024.

Inference

Accelerating Blockwise Parallel Language Models with Draft Refinement [pdf]

Taehyeon Kim, Ananda Theertha Suresh, Kishore Papineni, Michael Riley, Sanjiv Kumar, Adrian Benton

Neural Information Processing Systems (NeurIPS), 2024.

Reasoning

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [pdf]

Khashayar Gatmiry, Nikunj Saunshi, Sashank Reddi, Stefanie Jegelka, Sanjiv Kumar

International Conference on Machine Learning (ICML), 2024.

Inference

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [pdf]

Yuchen Li, Alexandre Kirchmeyer, Aashay Mehta, Yilong Qin, Boris Dadachev, Kishore Papineni, Sanjiv Kumar, Andrej Risteski

International Conference on Machine Learning (ICML), 2024.

Retrieval & Ranking

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval [pdf]

Seungyeon Kim, Ankit Singh Rawat, Manzil Zaheer, Wittawat Jitkrittum, Veeranjaneyulu Sadhanala, Sadeep Jayasumana, Aditya Krishna Menon, Rob Fergus, Sanjiv Kumar

International Conference on Machine Learning (ICML), 2024.

Inference

Tandem Transformers for Inference Efficient LLMs [pdf]

Aishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli

International Conference on Machine Learning (ICML), 2024.

Reasoning

Think Before You Speak: Training Language Models with Pause Tokens [pdf]

Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan