Publications

4 results for Mayank Mishra

PaTH Attention: Position Encoding via Accumulating Householder Transformations
- - Songlin Yang
  - Yikang Shen
  - et al.
- 2025
- NeurIPS 2025
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention
- - William Brandon
  - Mayank Mishra
  - et al.
- 2024
- NeurIPS 2024
Scaling Granite Code Models to 128K Context
- - Matthew Stallone
  - Vaibhav Saxena
  - et al.
- 2024
- arXiv
Granite code models: A family of open foundation models for code intelligence
- - Mayank Mishra
  - Matthew Stallone
  - et al.
- 2024
- arXiv