wassname/vllm

mirror of https://github.com/wassname/vllm.git synced 2026-06-27 19:49:51 +08:00

T

Woosuk Kwon 0deacbce6e Implement single_query_cached_kv_attention kernel (#3 )

2023-03-01 15:02:19 -08:00

Implement single_query_cached_kv_attention kernel (#3 )

2023-03-01 15:02:19 -08:00

Implement single_query_cached_kv_attention kernel (#3 )

2023-03-01 15:02:19 -08:00

Implement single_query_cached_kv_attention kernel (#3 )

2023-03-01 15:02:19 -08:00

.gitignore

Add gitignore

2023-02-16 07:47:21 +00:00

README.md

Add README

2023-02-24 12:04:49 +00:00

server.py

Clean up the server script

2023-02-24 11:56:21 +00:00

setup.py

Implement single_query_cached_kv_attention kernel (#3 )

2023-03-01 15:02:19 -08:00

README.md

CacheFlow

Installation

pip install cmake torch transformers
pip install -e .

Run

python server.py

Languages

Python 85%

Cuda 10.2%

C++ 3.1%

C 0.6%

Shell 0.6%

Other 0.4%