llama.cpp

mirror of https://github.com/ggerganov/llama.cpp synced 2026-03-29 03:15:32 +02:00

History

Johannes Gäßler e11bd856d5 CPU/CUDA: Gemma 2 FlashAttention support (#8542 ) * CPU/CUDA: Gemma 2 FlashAttention support * apply logit_softcap to scale in kernel * disable logit softcapping tests on Metal * remove metal check		2024-08-24 21:34:59 +02:00
..
ggml-alloc.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-backend.h	CUDA: fix partial offloading for ne0 % 256 != 0 (#8572 )	2024-07-18 23:48:47 +02:00
ggml-blas.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-cann.h	[CANN] Add Ascend NPU backend (#6035 )	2024-07-17 14:23:50 +03:00
ggml-cuda.h	feat: Support Moore Threads GPU (#8383 )	2024-07-28 01:41:25 +02:00
ggml-kompute.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-metal.h	metal : add abort callback (ggml/905)	2024-08-08 13:19:30 +03:00
ggml-rpc.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-sycl.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml-vulkan.h	llama : reorganize source code + improve CMake (#8006 )	2024-06-26 18:33:02 +03:00
ggml.h	CPU/CUDA: Gemma 2 FlashAttention support (#8542 )	2024-08-24 21:34:59 +02:00