Compare commits
merge into: git:main
git:main
git:ik/qwen35moe
git:ik/delta_net
git:ik/fix_imatrix_check
git:ik/q3next_opt3
git:ik/q3next_cuda_graphs
git:ik/q3next_opt2
git:ik/q3next_concat_cpu
git:ik/q3next_concat
git:ik/qwen3next
git:fcp/build_error
git:ik/glm5
git:fcp/spec_self
git:ik/try_fix_1222
git:ik/gguf_bool_arrays
git:fcp/server_fix
git:ik/step35_compat
git:ik/fused_mul_unary_1
git:ik/fix_graph_parallel_partial_offload
git:ik/cpu_repeat
git:ik/fix_1237
git:ik/sm_graph_step35
git:ik/change_default_fa_offset
git:ik/step35
git:ik/sm_graph_seedoss
git:ik/fattn_gqa_10
git:s6/seed_support2
git:ik/cpu_moe_tg
git:ik/fix_cpu_fa_work_buffer_size
git:ik/cpu_fa_dont_repack_tg
git:ik/better_cpu_fa_thread_strategy
git:ik/reduce_mla3_compute_buffer_size
git:ik/try_fix_1201
git:ik/fix_1205
git:ik/huihui_57B
git:ik/minimax_graph_minor
git:ik/fa_offset_2
git:ik/fattn_kq_max_offset
git:ik/minmax2_sm_graph
git:ik/minimax2_very_fast
git:ik/glm45_tg_very_fast
git:ik/sync_fa
git:ik/try_split_mla
git:ik/glm47_fa_2
git:ik/shexps_better_hybrid
git:ik/better_fa_glm45
git:ik/rng_sampling
git:ik/glm45_tg_fa_hack
git:ik/glm47_tg_fa_hack
git:ik/remove_llamafile
git:ik/sm_graph_cuda_graphs
git:ik/fix_batched_cublas
git:ik/sweep_bench_nrep
git:ik/correct_missing_gating_func_comments
git:ik/correct_glm47_flash_gating_func
git:ik/cuda_graphs_with_overrides
git:ik/fix_windows_no_omp
git:ik/topk_moe_fuse_bias
git:ik/glm_flash
git:ik/sampling_refactor_sorting
git:ik/adaptive_p_2
git:ik/adaptive_p
git:ik/fix_add_bf16_turing
git:ik/skip_get_rows
git:ik/reduce_make_copies
git:ik/extra_reduce_types
git:ik/try_fix_many_gpus_2
git:ik/try_fix_many_gpus
git:ik/fix_exp_shexp_split
git:ik/llama_bench_overrides
git:ik/llama_bench_sas
git:ik/merge_up_gate_exps_3
git:ik/merge_up_gate_exps_2
git:ik/fuse_merge_up_gate_exps
git:ik/try_authors
git:ik/bailingmoe2_graph
git:ik/deepseek_mla0
git:ik/update_authors
git:ik/fix_gpt_oss_partial_offload
git:ik/graph_better_splits
git:ik/fix_reduce_race
git:ik/ernie_graph
git:ik/dont_abort_on_nccl_init_failure
git:ik/gpt_oss_graph
git:ik/hunyuan_graph
git:ik/mimo2_4_gpus
git:ik/fix_ring_reduction
git:ik/reduce_race_quick_fix
git:ik/qwen3vl_graph
git:ik/qwen3_graph
git:ik/mimo2_graph
git:ik/fix_fa_192_128
git:ik/mimo2
git:ik/graph_reuse_on
git:ik/nccl3_async
git:ik/more_set_device
git:ik/ring_reduce
git:ik/fix_no_p2p_case
git:ik/reduce_no_nccl
git:ik/split_mode_f32
git:ik/fused_norm
git:ik/nccl3
git:ik/nccl2
git:ik/nccl1
git:ik/p2p_cpy_set_device
git:ik/better_graph_pp
git:ik/better_graph_tg
git:ik/ignore_nextn_layers
git:ik/cohere2_sm_graph
git:ik/fix_sync_logic
git:ik/undo_sync_reduction
git:ik/undo_1049_if_tensor_overrides
git:ik/fix_mmq_overflow
git:ik/sm_graph_rearrange
git:ik/disable_or_enable_p2p
git:ik/fix_1055
git:ik/fix_the_fix
git:ik/sm_graph_max_gpu
git:ik/fix_bench_compile
git:ik/sm_graph_sync
git:ik/try_split_offloaded_moe_up_gate
git:ik/backend_reduce_syncs
git:ik/split_graph_2
git:ik/handle_split_cache
git:ik/fix_annoying_warnings
git:ik/sm_graph_disable_cuda_graphs
git:ik/cuda_set_device
git:ik/dont_split_output
git:ik/fix_debug_build
git:ik/mistral3_large
git:ik/k_cache_hadamard_cuda
git:ik/k_cache_hadamard
git:ik/mistral3_std_attn
git:ik/fix_cuda_scale_bug
git:ik/ministral3
git:ik/graph_alloc
git:ik/allow_empty_splits
git:ik/is_this_better_for_multi_gpu
git:ik/slightly_better_graph_split_strategy
git:ik/poc_tp_glm4.5
git:ik/fix_rpc_off2
git:ik/poc_tp
git:ik/try_fix_1014
git:ik/fix_1015
git:fcp/fix_rpc_device
git:ik/gguf_py_add_maxfp4
git:ik/iq4_nl_cache
git:ik/fix_q6_0_dequantize
git:ik/disable_rope_cache
git:ik/support_gigachat
git:ik/wip_sync_llama
git:ik/fix_requantize_interleaved
git:ik/gguf_py_changes_for_np2.0
git:ik/fix_kimi2_parse
git:ik/disable_sm_row
git:ik/try_fix_974
git:ik/deepseek_guarantee_rope_fusion
git:ik/topk_moe_with_norm
git:ik/fused_rope_rope
git:ik/add_vq_help
git:fcp/context_shift_fix
git:ik/gemma3_mqkv_rcache
git:ik/fix_rtr_mqkv
git:ik/deepseek_rope_cache
git:ik/gemma_output_tensor
git:ik/fix_fattn_supported
git:ik/really_fix_rope_cache
git:ik/add_jinja_file_help
git:ik/graph_reuse
git:ik/fix_up_gate_mmq_not_supported
git:ik/fix_repacked_legacy_quants
git:ik/llama_bench_mla3
git:ik/fix_windows_avx512
git:ik/fix_rope_norm_fast_cuda
git:ik/fa_mainline_compat
git:ik/mla=3_by_default
git:ik/deepseek_merge_qk
git:ik/enable_fusion_by_default
git:ik/iqk_mmvq_opt
git:ik/llama_bench_n_cpu_moe
git:ik/llama_bench_rcache
git:ik/remove_unnecessary_calls
git:ik/smollm3
git:ik/deepseek_fa_opt
git:ik/fuse_bias_only_tg
git:ik/make_biased_gemv_optional
git:ik/deepseek_opt
git:ik/use_mmq_id_for_moe
git:ik/fuse_kvcache_copy
git:ik/another_mmq_id_fix
git:ik/disable_add_fused_rms
git:ik/fix_mmq_id
git:ik/fix_iqk_for_strange_numrows
git:ik/cuda_params
git:ik/disable_fusion_by_default
git:ik/option_to_disable_cuda_fusion
git:ik/fix_after_883
git:ik/cpu_fa_tg_glm4.5
git:ik/sweep_bench_n_predict
git:ik/quantize_ffn_gate_inp
git:ik/merge_only_qk
git:ik/disable_some_fusion
git:ik/rope_cache
git:ik/cuda_lto
git:ik/cuda_rope_back
git:ik/fused_rms_rms
git:ik/biased_mmvq
git:ik/merge_qkv
git:ik/fattn_is_supported
git:ik/try_remove_cpy_indirection
git:ik/fuse_biased_qkv
git:ik/biased_qkv
git:ik/reorg_mmvq_and_fuse_bias
git:ik/change_fmoe_fa_defaults
git:ik/mmvq_args
git:ik/mmvq_fuse_bias
git:ik/format_name
git:ik/fused_mul_multiadd
git:ik/fix_experts_node_name
git:ik/fuse_add_add_fused_rms
git:ik/try_fix_854
git:ik/fuse_add_fused_rms
git:ik/fix_fused_grouped_topk
git:ik/rms_block_size
git:ik/debug_849
git:ik/fix_pr_842
git:ik/no_KV_for_unused_layers
git:ik/ooae_on_by_default
git:ik/fused_bailingmoev2
git:ik/n_cpu_moe
git:ik/cuda_grouped_topk
git:ik/try_grouped_topk_playing1
git:ik/cpu_argsort
git:ik/bailingmoe2
git:ik/dup_experts_bias
git:ik/fix_827
git:ik/mask_mt
git:ik/fix_perf_regression
git:ik/llama_warnings
git:ik/refactor_llama.cpp
git:ik/debug_issue_733
git:ik/try_fix_avx2_fa
git:ik/fix_gemma3_vision
git:ik/vendor
git:ik/dedup_stb_image
git:ik/add_mtmd
git:ik/better_fa_masking
git:ik/fix_dequantize_when_requantizing
git:ik/fuse_qkv
git:ik/cpu_topk_moe
git:ik/try_fix_772
git:ik/cuda_topk_moe
git:ik/fix_compiler_warnings
git:ik/ooae2
git:ik/fix_contiguously_allocated
git:ik/cpu_swa_v2
git:ik/cuda_swa3
git:ik/sched_copy_experts
git:ik/cuda_swa2
git:ik/sched_max_copies=1
git:ik/revert_739
git:ik/cuda_refactor_fattn
git:s6/fix_prompt_tokenization
git:ik/fused_ffn_up_gate
git:ik/fix_missing_end
git:ik/skip_rowids_computation
git:ik/optional_yarn_log_multiplier
git:ik/sanitize_importance_iqk
git:ik/validate_quants_on_load
git:ik/mmq_id_thresh
git:ik/fix_avx2_gemm_mess
git:ik/add_mmq_id
git:s6/mikupad
git:ik/debug_issue_721
git:ik/sanitize_importance_kt_quants
git:ik/fix_q80_avx2_2
git:ik/remove_scary_warning
git:ik/cuda_iq2k_use_bperm1
git:ik/cuda_iq3k_use_bperm1
git:ik/cuda_use_bperm
git:ik/q8_k_r16
git:ik/try_fix_690
git:ik/disable_vocab_debug
git:ik/fix_q80_avx2_mess
git:ik/fix_q80_moe_avx2
git:ik/disable_experimental_code1
git:ik/cpu_swa_v1
git:ik/reverts
git:ik/fix_glm4_attn
git:ik/cpu_swa_v0
git:ik/try_cuda_graphs
git:ik/gpt-oss
git:s6/fix_kshift_crash
git:ik/mxfp4
git:ik/fix_quantized_kv_nofa
git:ik/vulkan1
git:ik/iq4_kss_improvements
git:ik/fix_comma_pauses
git:ik/iq1_m_neon
git:ik/iq1m_gemm
git:ik/iq1_kt
git:ik/quantization_tweaks
git:ik/q8_k_r8_avx512
git:ik/vulkan_again
git:ik/iq2_kl
git:ik/add_iq3ks_to_gguf
git:ik/fix_596
git:s6/dots
git:s6/readme-minor2
git:ik/apply_cuda_faster_iq3k
git:ik/cuda_faster_iq2k
git:ik/cuda_quantized_fmoe
git:ik/vulkan_fattn
git:ik/add_forgotten_multi_add
git:ik/vulkan_multi_add
git:ik/vulkan_disable_multi_add
git:ik/vulkan_fused_mul_unary
git:ik/fix_rpc_off
git:ik/fix_missing_dry
git:ik/vulkan_fused_rms
git:ik/kq_mask_padding_64
git:ik/fix_vulkan_required
git:ik/iq3_ks_v2
git:ik/vulkan_disable_fused_ops
git:ik/improve_mmq
git:ik/cuda_large_cpy
git:ik/mmq_to_cublas
git:ik/cuda_iqk_r4
git:ik/falcon_edge
git:ik/gemm_neon_1bit
git:ik/gemm_neon_kquants
git:ik/gemm_neon_iquants
git:ik/gemm_neon_iqk
git:ik/gemm_neon_legacy
git:ik/metal_new_trellis
git:ik/trellis_opt
git:ik/neon_iq3_kt
git:ik/fix_neon_build
git:ik/fix_538
git:s6/readme-minor1
git:ik/new_iq2kt_v2
git:ik/legacy_gemm
git:ik/iqk_gemm
git:ik/q6_k_gemm
git:ik/fix_bug_481
git:s6/readme_update
git:ik/q4_k_gemm
git:ik/iq_gemv_tweaks
git:ik/moe_offload_strategy
git:ik/iq3_s_gemm
git:ik/iq1_s_gemm
git:ik/iq3_xxs_gemm
git:ik/iq2_xxs_gemm
git:ik/new_iq2kt
git:s6/docs_update
git:ik/new_iq4kt
git:s6/list_prompt_cache
git:ik/fix_499
git:ik/new_trellis_2
git:ik/check_up_gate_fmoe
git:s6/MLA_prompt_save_restore_fix
git:ik/llama_hparams_add_mla
git:ik/cuda_iq1_m_r4
git:ik/mmq_iq_ks_r4
git:ik/cuda_iq1_s_r4
git:ik/sampling-top-n-sigma
git:ik/dequant_moe_gemm
git:ik/mmvq_type_supported
git:ik/sampling-xtc
git:ik/trellis_bf16
git:ik/trellis_metal
git:ik/repack_f16
git:ik/dequant_gemm
git:ik/remove_kv_l
git:s6/remove_kv_l
git:ik/trellis_neon
git:ik/server_send_done
git:ik/minor_iq2ks_tweak
git:s6/cache_default
git:ik/cuda_iqk_ks_r4
git:ik/cuda_iq4_k_r4
git:ik/add_missing_gguf_constants
git:ik/remove_iqk_option
git:s6/fp8_native
git:ik/opt_kt_quants
git:ik/fix_447
git:ik/fix_mmvq_bug
git:ik/fix_typo
git:ik/cuda_tracer
git:ik/andrew_trellis
git:ik/desperate_bug_fix_attempt
git:ik/cuda_mailine_fixes
git:ik/refactor_iqk
git:ik/disable_multi_add
git:ik/option_cpu_fa
git:ik/zen4_faster_iq4ks_iq5ks
git:ik/iq5_ks_r4
git:ik/fix_iq4k_avx2
git:ik/add_missing_mmq_iq5ks
git:ik/iq5_ks
git:ik/fix_standard_attention_cpu
git:ik/cuda_mmq_iq2_k
git:ik/cuda_mmq_iq4_k
git:ik/fix_ser_cuda
git:ik/fix_ser
git:ik/fix_412
git:ik/fix_mla_imatrix
git:ik/cpu_deepseek_fa
git:ik/enable_mla3_in_crippled_ggufs
git:ik/cuda_flash_mla3_v2
git:ik/fix_cuda_fa_race
git:ik/offload_policy
git:ik/remove_unnessessary_ids_copy
git:s6/rope_freq_fix
git:ik/cuda_fix_quantized_flash_mla3
git:ik/handle_incompatible_deepseek_ggufs
git:ik/fix_deepseek_q80_cache
git:ik/fix_xeon_6226R
git:ik/cuda_flash_mla3
git:s6/deci_support
git:ik/fix_deepseek_fattn
git:ik/sweep_bench_warmup
git:ik/cuda_mmq_iq4_ks
git:ik/try_fix_367_v2
git:ik/fattn_mma
git:ik/try_fix_367
git:s6/bitnet_name_update
git:ik/fix_fa_avx2_bug
git:s6/qwen3_dynamic_yarn
git:ikawrakow-patch-1-1
git:ik/fix_358
git:ik/add_missing_enum_values_qwen3
git:ikawrakow-patch-1
git:ik/fattn_work_buffer
git:ik/fix_div_zero
git:ik/fix_q41_q51_arm
git:ik/cohere2
git:ik/arch_flags
git:ik/fix_arm_fa
git:ik/pickup_13095
git:ik/fix_llama4_attention
git:s6/fix_python
git:ik/bitnet_adjustments
git:s6/bitnet2b_2501
git:s6/termux_fix
git:ik/tg_tweaks
git:ik/faster_avx2_q40
git:ik/gemma_q80_kvcache
git:ik/imatrix_lsim
git:ik/hide_imatrix
git:ik/improve_iq1m
git:ik/fix_kld
git:ik/l4_rms_norm
git:ik/llama4
git:ik/improve_iq2ks
git:ik/mla_guard
git:ik/update_license
git:ik/copyright
git:ik/try_fa_no_q80_repack
git:ik/fix_cuda_memcpy_async
git:ik/improve_iq2_xs
git:ik/flax-vector-conversions
git:ik/metal_fattn_update
git:ik/fix_gcc_arm
git:ik/metal_moe
git:ik/fix_neon_q82
git:ik/iqk_q_improvements
git:ik/fix_300
git:ik/interleaved_guards
git:ik/make_qx_quants
git:ik/change_q_pure
git:ik/use_q8_2
git:ik/test_q80_NaNs
git:s6/numa_KV
git:s6/sweep_bench_update
git:ik/deepseek_is_this_better
git:ik/llama_bench_tgb
git:ik/cuda_better_moe
git:ik/better_batched_processing
git:ik/test_thp
git:ik/cuda_native
git:ik/fix_again_cmake
git:ik/better_flash_mla
git:ik/gemma3
git:ik/bug_missing_parentheses
git:ik/offline_repack_patterns
git:ik/FlashMLA-3
git:ik/offline_repack
git:ik/tensor_override_honor_mmap
git:ik/fix_dup_q
git:ik/avoid_cuda_mla_1
git:ik/mla2_q80_cache_cpu
git:ik/mla2_q80_cache
git:ik/fix_pr_261
git:ik/use_bf16_when_no_mmq
git:ik/flash_mla2_cuda_no_f32
git:ik/prepare_wk_b
git:ik/flash_mla2_no_f32
git:ik/cuda_flash_mla_q8_0
git:ik/flash_precision
git:ik/mla_imatrix
git:ik/cuda_faster_moe_tg
git:ik/flash_mla_4
git:ik/flash_mla_2
git:ik/custom_q_rules
git:ik/better_tg_fattn
git:ik/cuda_fattn_Dk_Dv
git:ik/flash_mla
git:ik/smart_expert_selection
git:ik/measure_barriers
git:ik/reduce_compute_buffers
git:ik/mla_no_transposed_cache
git:ik/cuda_mla2
git:ik/cuda_mla
git:ik/buffer_type_overrides
git:s6/rpc
git:ik/issue_230
git:ik/fused_up_gate_unary
git:s6/sweep_bench
git:ik/issue_224
git:ik/issue_217
git:ik/fuse_moe_up_gate
git:ik/attn_gemm
git:ik/fix_avx512_vs_fancy_simd
git:ik/issue_214
git:ik/fix_neon_legacy_quants
git:ik/gemm_iq1s
git:ik/q8_KV
git:ik/repack_also_experts
git:ik/gemm_4d
git:ik/mla_q80
git:ik/mla_fixes
git:ik/fix_missing_bf16_avx512
git:ik/fix_imatrix_nonsense
git:ik/fattn_Dk_Dv
git:s6/warmup
git:ik/try_trellis
git:ik/iqk_fattn_all_quants
git:ik/mla
git:s6/mla
git:ik/iq1_s_r4_k128
git:ik/revert_0bf4d997
git:ik/iq1_s_checks
git:ik/cuda_rms_non_contiguous
git:ik/rename_4_8
git:ik/iq1_m_r4
git:ik/iq1_s_r4_neon
git:ik/iq1_s_r4
git:ik/qmix_tweaks_2
git:ik/qx_k_b32_avx2
git:ik/bench_gp
git:ik/q4_0_r8
git:ik/iq4_xs_r8_v2
git:ik/chat_templates
git:ik/gemv_bf16_r16
git:ik/avx2_bf16
git:ik/zen4_repack_f16
git:ik/fattn_kqv
git:ik/fattn_bf16
git:ik/fix_fattn_odd_even
git:ik/fix_mul_mat_16
git:ik/convert_i2s
git:ik/falcon3a
git:ik/falcon3
git:ik/cuda_q4_0_r4
git:ik/mv_q4_0_r4
git:ik/iq3_s_r4_v2
git:ik/iq3_s_r4
git:ik/fix_windows
git:ik/qx_0_r4_avx2
git:ik/r4_nrcy_16
git:ik/iq2_s_r4
git:ik/iq2_xs_r4
git:ik/iq2_xxs_r4
git:ik/iq3_xxs_r4_v2
git:ik/iq3_xxs_r4
git:ik/iq4_ks_r4
git:ik/iq5_k_r4
git:ik/avx2_r4_tweaks
git:ik/run_time_repack
git:ik/iq2_k_r4
git:ik/iq3_k_r4_v2
git:ik/iq4_k_r4_avx2
git:ik/iq4_xs_r4_avx2
git:ik/iq4_xs_r8
git:ik/bf16_r4
git:ik/q8_k_r8
git:ik/r4_faster_zen4
git:ik/iq4_k_r4
git:ik/fix_avx2_iq4_nl_r4
git:ik/q2_k_r4
git:ik/arm_better_r4
git:ik/q3_k_r4
git:ik/q5_k_r4
git:ik/q4_k_r4_v3
git:ik/q6_k_r4
git:ik/q4_k_r4_v2
git:ik/zen4_iq4_xs_r4
git:ik/rename_iq4_nl_x4
git:ik/r4_neon
git:ik/q4_k_r4
git:ik/iq2_bn_r4
git:ik/iq4_xs_r4
git:ik/q6_0_r4
git:ik/q5_0_r4
git:ik/q8_0_r4
git:ik/q4_0_r4
git:ik/iq4_nl_x4
git:ik/iq4kss_experiments
git:ik/iq2ks_experiments
git:ik/q60_mmq
git:ik/faster_iq4k
git:ik/multi_add
git:ik/moe_fused_unary
git:ik/bitnet_fused_unary
git:ik/bitnet_cuda
git:ik/bitnet_improve_metal
git:ik/iq1bn_metal
git:ik/adapt_iq1_iq2_bn
git:ik/fix_quantized_k_cache
git:ik/add_granite
git:ik/fattn_enable_q6_0
git:ik/fattn_enable_iq4_nl
git:ik/bitnet_optional_scales
git:ik/cached_graph
git:ik/fix_reduce_windows
git:ik/iq4_knn
git:ik/iq4_kss
git:ik/metal_faster_iq4ks
git:ik/metal_fix_iq3k
git:ik/metal_fix_iq2k
git:ik/iq2k_experiments
git:ik/better_model_info
git:ik/iq3_ks
git:ik/iq4_k_xxs
git:ik/qstats
git:ik/cleanup_fudge_factors
git:ik/cpp_17
git:ik/skip_unnecessary_quantize
git:ik/faster_q60_avx2
git:ik/fused_mul_unary
git:ik/add_q60
git:ik/faster_iq4nl_quantize
git:ik/fix_q5_0_fa
git:ik/iq4nl_kv_cache
git:ik/cuda_faster_iq4nl_kvcache
git:ik/better_iq4_nl
git:ik/try_svd
git:ik/better_iqk_strategy
git:ik/bf16_kv_cache
git:ik/fix_replace_all
git:ik/non_contiguous_rope
git:ik/swiglu
git:ik/phi3.5_tweaks
git:ik/play_with_barrier
git:ik/per_row_scale
git:ik/fix_metal_fa
git:ik/fix_ggml_common
git:ik/hsums
git:ik/metal_bf16
git:ik/neon_bf16
git:ik/cuda_bf16
git:ik/avx2_q5_0
git:ik/avx2_q4_0_q8_0
git:ik/qmix_tweaks
git:ik/fix_kq
git:ik/neon_flash_attention_3
git:ik/avx2_flash_attn_2
git:ik/neon_flash_attention_2
git:ik/avx2_flash_attn
git:ik/iq2_tn_avx2
git:ik/iq2_tn_as_iq2_bn
git:ik/iq1_tn_metal
git:ik/iq1_tn_cuda
git:ik/iq1_tn
git:ik/iq2_tn_faster_pp
git:ik/fused_rms_norm
git:ik/mul_mat_bf16
git:ik/zen4_flash_attn_bf16
git:ik/neon_improve_legacy_quants
git:ik/zen4_flash_attn_2
git:ik/fix_flash_attn
git:ik/fix_multiple_choice
git:ik/zen4_flash_attn
git:ik/kq_fused_softmax
git:ik/fix_no_iqk_build
git:ik/kq_mask
git:ik/fused_softcap_softmax
git:ik/softcap_minor
git:ik/softcap
git:ik/iq4_k_tweaks
git:ik/quantize_q8k_avx2
git:ik/quantize_stats
git:ik/iq2_k_tweak
git:ik/skip_noop_barriers
git:ik/merge_Aug_12_2024
git:ik/fix_Makefile
git:ik/iq6_k
git:ik/iq2_tn
git:ik/trinet
git:ik/faster_iq3_iq5_quantize
git:ik/faster_iq4k_quantize
git:ik/iq2_k
git:ik/iq4_k
git:ik/fuse_mul_mat_scale
git:ik/merge_July_26_2024
git:ik/bitnet_token_embedding_gpu_2
git:ik/bitnet_token_embedding_gpu
git:ik/mul_mat_ext
git:ik/new_iq1bn
git:t0002
...
pull from: git:ik/q3next_concat
git:ik/qwen35moe
git:main
git:ik/delta_net
git:ik/fix_imatrix_check
git:ik/q3next_opt3
git:ik/q3next_cuda_graphs
git:ik/q3next_opt2
git:ik/q3next_concat_cpu
git:ik/q3next_concat
git:ik/qwen3next
git:fcp/build_error
git:ik/glm5
git:fcp/spec_self
git:ik/try_fix_1222
git:ik/gguf_bool_arrays
git:fcp/server_fix
git:ik/step35_compat
git:ik/fused_mul_unary_1
git:ik/fix_graph_parallel_partial_offload
git:ik/cpu_repeat
git:ik/fix_1237
git:ik/sm_graph_step35
git:ik/change_default_fa_offset
git:ik/step35
git:ik/sm_graph_seedoss
git:ik/fattn_gqa_10
git:s6/seed_support2
git:ik/cpu_moe_tg
git:ik/fix_cpu_fa_work_buffer_size
git:ik/cpu_fa_dont_repack_tg
git:ik/better_cpu_fa_thread_strategy
git:ik/reduce_mla3_compute_buffer_size
git:ik/try_fix_1201
git:ik/fix_1205
git:ik/huihui_57B
git:ik/minimax_graph_minor
git:ik/fa_offset_2
git:ik/fattn_kq_max_offset
git:ik/minmax2_sm_graph
git:ik/minimax2_very_fast
git:ik/glm45_tg_very_fast
git:ik/sync_fa
git:ik/try_split_mla
git:ik/glm47_fa_2
git:ik/shexps_better_hybrid
git:ik/better_fa_glm45
git:ik/rng_sampling
git:ik/glm45_tg_fa_hack
git:ik/glm47_tg_fa_hack
git:ik/remove_llamafile
git:ik/sm_graph_cuda_graphs
git:ik/fix_batched_cublas
git:ik/sweep_bench_nrep
git:ik/correct_missing_gating_func_comments
git:ik/correct_glm47_flash_gating_func
git:ik/cuda_graphs_with_overrides
git:ik/fix_windows_no_omp
git:ik/topk_moe_fuse_bias
git:ik/glm_flash
git:ik/sampling_refactor_sorting
git:ik/adaptive_p_2
git:ik/adaptive_p
git:ik/fix_add_bf16_turing
git:ik/skip_get_rows
git:ik/reduce_make_copies
git:ik/extra_reduce_types
git:ik/try_fix_many_gpus_2
git:ik/try_fix_many_gpus
git:ik/fix_exp_shexp_split
git:ik/llama_bench_overrides
git:ik/llama_bench_sas
git:ik/merge_up_gate_exps_3
git:ik/merge_up_gate_exps_2
git:ik/fuse_merge_up_gate_exps
git:ik/try_authors
git:ik/bailingmoe2_graph
git:ik/deepseek_mla0
git:ik/update_authors
git:ik/fix_gpt_oss_partial_offload
git:ik/graph_better_splits
git:ik/fix_reduce_race
git:ik/ernie_graph
git:ik/dont_abort_on_nccl_init_failure
git:ik/gpt_oss_graph
git:ik/hunyuan_graph
git:ik/mimo2_4_gpus
git:ik/fix_ring_reduction
git:ik/reduce_race_quick_fix
git:ik/qwen3vl_graph
git:ik/qwen3_graph
git:ik/mimo2_graph
git:ik/fix_fa_192_128
git:ik/mimo2
git:ik/graph_reuse_on
git:ik/nccl3_async
git:ik/more_set_device
git:ik/ring_reduce
git:ik/fix_no_p2p_case
git:ik/reduce_no_nccl
git:ik/split_mode_f32
git:ik/fused_norm
git:ik/nccl3
git:ik/nccl2
git:ik/nccl1
git:ik/p2p_cpy_set_device
git:ik/better_graph_pp
git:ik/better_graph_tg
git:ik/ignore_nextn_layers
git:ik/cohere2_sm_graph
git:ik/fix_sync_logic
git:ik/undo_sync_reduction
git:ik/undo_1049_if_tensor_overrides
git:ik/fix_mmq_overflow
git:ik/sm_graph_rearrange
git:ik/disable_or_enable_p2p
git:ik/fix_1055
git:ik/fix_the_fix
git:ik/sm_graph_max_gpu
git:ik/fix_bench_compile
git:ik/sm_graph_sync
git:ik/try_split_offloaded_moe_up_gate
git:ik/backend_reduce_syncs
git:ik/split_graph_2
git:ik/handle_split_cache
git:ik/fix_annoying_warnings
git:ik/sm_graph_disable_cuda_graphs
git:ik/cuda_set_device
git:ik/dont_split_output
git:ik/fix_debug_build
git:ik/mistral3_large
git:ik/k_cache_hadamard_cuda
git:ik/k_cache_hadamard
git:ik/mistral3_std_attn
git:ik/fix_cuda_scale_bug
git:ik/ministral3
git:ik/graph_alloc
git:ik/allow_empty_splits
git:ik/is_this_better_for_multi_gpu
git:ik/slightly_better_graph_split_strategy
git:ik/poc_tp_glm4.5
git:ik/fix_rpc_off2
git:ik/poc_tp
git:ik/try_fix_1014
git:ik/fix_1015
git:fcp/fix_rpc_device
git:ik/gguf_py_add_maxfp4
git:ik/iq4_nl_cache
git:ik/fix_q6_0_dequantize
git:ik/disable_rope_cache
git:ik/support_gigachat
git:ik/wip_sync_llama
git:ik/fix_requantize_interleaved
git:ik/gguf_py_changes_for_np2.0
git:ik/fix_kimi2_parse
git:ik/disable_sm_row
git:ik/try_fix_974
git:ik/deepseek_guarantee_rope_fusion
git:ik/topk_moe_with_norm
git:ik/fused_rope_rope
git:ik/add_vq_help
git:fcp/context_shift_fix
git:ik/gemma3_mqkv_rcache
git:ik/fix_rtr_mqkv
git:ik/deepseek_rope_cache
git:ik/gemma_output_tensor
git:ik/fix_fattn_supported
git:ik/really_fix_rope_cache
git:ik/add_jinja_file_help
git:ik/graph_reuse
git:ik/fix_up_gate_mmq_not_supported
git:ik/fix_repacked_legacy_quants
git:ik/llama_bench_mla3
git:ik/fix_windows_avx512
git:ik/fix_rope_norm_fast_cuda
git:ik/fa_mainline_compat
git:ik/mla=3_by_default
git:ik/deepseek_merge_qk
git:ik/enable_fusion_by_default
git:ik/iqk_mmvq_opt
git:ik/llama_bench_n_cpu_moe
git:ik/llama_bench_rcache
git:ik/remove_unnecessary_calls
git:ik/smollm3
git:ik/deepseek_fa_opt
git:ik/fuse_bias_only_tg
git:ik/make_biased_gemv_optional
git:ik/deepseek_opt
git:ik/use_mmq_id_for_moe
git:ik/fuse_kvcache_copy
git:ik/another_mmq_id_fix
git:ik/disable_add_fused_rms
git:ik/fix_mmq_id
git:ik/fix_iqk_for_strange_numrows
git:ik/cuda_params
git:ik/disable_fusion_by_default
git:ik/option_to_disable_cuda_fusion
git:ik/fix_after_883
git:ik/cpu_fa_tg_glm4.5
git:ik/sweep_bench_n_predict
git:ik/quantize_ffn_gate_inp
git:ik/merge_only_qk
git:ik/disable_some_fusion
git:ik/rope_cache
git:ik/cuda_lto
git:ik/cuda_rope_back
git:ik/fused_rms_rms
git:ik/biased_mmvq
git:ik/merge_qkv
git:ik/fattn_is_supported
git:ik/try_remove_cpy_indirection
git:ik/fuse_biased_qkv
git:ik/biased_qkv
git:ik/reorg_mmvq_and_fuse_bias
git:ik/change_fmoe_fa_defaults
git:ik/mmvq_args
git:ik/mmvq_fuse_bias
git:ik/format_name
git:ik/fused_mul_multiadd
git:ik/fix_experts_node_name
git:ik/fuse_add_add_fused_rms
git:ik/try_fix_854
git:ik/fuse_add_fused_rms
git:ik/fix_fused_grouped_topk
git:ik/rms_block_size
git:ik/debug_849
git:ik/fix_pr_842
git:ik/no_KV_for_unused_layers
git:ik/ooae_on_by_default
git:ik/fused_bailingmoev2
git:ik/n_cpu_moe
git:ik/cuda_grouped_topk
git:ik/try_grouped_topk_playing1
git:ik/cpu_argsort
git:ik/bailingmoe2
git:ik/dup_experts_bias
git:ik/fix_827
git:ik/mask_mt
git:ik/fix_perf_regression
git:ik/llama_warnings
git:ik/refactor_llama.cpp
git:ik/debug_issue_733
git:ik/try_fix_avx2_fa
git:ik/fix_gemma3_vision
git:ik/vendor
git:ik/dedup_stb_image
git:ik/add_mtmd
git:ik/better_fa_masking
git:ik/fix_dequantize_when_requantizing
git:ik/fuse_qkv
git:ik/cpu_topk_moe
git:ik/try_fix_772
git:ik/cuda_topk_moe
git:ik/fix_compiler_warnings
git:ik/ooae2
git:ik/fix_contiguously_allocated
git:ik/cpu_swa_v2
git:ik/cuda_swa3
git:ik/sched_copy_experts
git:ik/cuda_swa2
git:ik/sched_max_copies=1
git:ik/revert_739
git:ik/cuda_refactor_fattn
git:s6/fix_prompt_tokenization
git:ik/fused_ffn_up_gate
git:ik/fix_missing_end
git:ik/skip_rowids_computation
git:ik/optional_yarn_log_multiplier
git:ik/sanitize_importance_iqk
git:ik/validate_quants_on_load
git:ik/mmq_id_thresh
git:ik/fix_avx2_gemm_mess
git:ik/add_mmq_id
git:s6/mikupad
git:ik/debug_issue_721
git:ik/sanitize_importance_kt_quants
git:ik/fix_q80_avx2_2
git:ik/remove_scary_warning
git:ik/cuda_iq2k_use_bperm1
git:ik/cuda_iq3k_use_bperm1
git:ik/cuda_use_bperm
git:ik/q8_k_r16
git:ik/try_fix_690
git:ik/disable_vocab_debug
git:ik/fix_q80_avx2_mess
git:ik/fix_q80_moe_avx2
git:ik/disable_experimental_code1
git:ik/cpu_swa_v1
git:ik/reverts
git:ik/fix_glm4_attn
git:ik/cpu_swa_v0
git:ik/try_cuda_graphs
git:ik/gpt-oss
git:s6/fix_kshift_crash
git:ik/mxfp4
git:ik/fix_quantized_kv_nofa
git:ik/vulkan1
git:ik/iq4_kss_improvements
git:ik/fix_comma_pauses
git:ik/iq1_m_neon
git:ik/iq1m_gemm
git:ik/iq1_kt
git:ik/quantization_tweaks
git:ik/q8_k_r8_avx512
git:ik/vulkan_again
git:ik/iq2_kl
git:ik/add_iq3ks_to_gguf
git:ik/fix_596
git:s6/dots
git:s6/readme-minor2
git:ik/apply_cuda_faster_iq3k
git:ik/cuda_faster_iq2k
git:ik/cuda_quantized_fmoe
git:ik/vulkan_fattn
git:ik/add_forgotten_multi_add
git:ik/vulkan_multi_add
git:ik/vulkan_disable_multi_add
git:ik/vulkan_fused_mul_unary
git:ik/fix_rpc_off
git:ik/fix_missing_dry
git:ik/vulkan_fused_rms
git:ik/kq_mask_padding_64
git:ik/fix_vulkan_required
git:ik/iq3_ks_v2
git:ik/vulkan_disable_fused_ops
git:ik/improve_mmq
git:ik/cuda_large_cpy
git:ik/mmq_to_cublas
git:ik/cuda_iqk_r4
git:ik/falcon_edge
git:ik/gemm_neon_1bit
git:ik/gemm_neon_kquants
git:ik/gemm_neon_iquants
git:ik/gemm_neon_iqk
git:ik/gemm_neon_legacy
git:ik/metal_new_trellis
git:ik/trellis_opt
git:ik/neon_iq3_kt
git:ik/fix_neon_build
git:ik/fix_538
git:s6/readme-minor1
git:ik/new_iq2kt_v2
git:ik/legacy_gemm
git:ik/iqk_gemm
git:ik/q6_k_gemm
git:ik/fix_bug_481
git:s6/readme_update
git:ik/q4_k_gemm
git:ik/iq_gemv_tweaks
git:ik/moe_offload_strategy
git:ik/iq3_s_gemm
git:ik/iq1_s_gemm
git:ik/iq3_xxs_gemm
git:ik/iq2_xxs_gemm
git:ik/new_iq2kt
git:s6/docs_update
git:ik/new_iq4kt
git:s6/list_prompt_cache
git:ik/fix_499
git:ik/new_trellis_2
git:ik/check_up_gate_fmoe
git:s6/MLA_prompt_save_restore_fix
git:ik/llama_hparams_add_mla
git:ik/cuda_iq1_m_r4
git:ik/mmq_iq_ks_r4
git:ik/cuda_iq1_s_r4
git:ik/sampling-top-n-sigma
git:ik/dequant_moe_gemm
git:ik/mmvq_type_supported
git:ik/sampling-xtc
git:ik/trellis_bf16
git:ik/trellis_metal
git:ik/repack_f16
git:ik/dequant_gemm
git:ik/remove_kv_l
git:s6/remove_kv_l
git:ik/trellis_neon
git:ik/server_send_done
git:ik/minor_iq2ks_tweak
git:s6/cache_default
git:ik/cuda_iqk_ks_r4
git:ik/cuda_iq4_k_r4
git:ik/add_missing_gguf_constants
git:ik/remove_iqk_option
git:s6/fp8_native
git:ik/opt_kt_quants
git:ik/fix_447
git:ik/fix_mmvq_bug
git:ik/fix_typo
git:ik/cuda_tracer
git:ik/andrew_trellis
git:ik/desperate_bug_fix_attempt
git:ik/cuda_mailine_fixes
git:ik/refactor_iqk
git:ik/disable_multi_add
git:ik/option_cpu_fa
git:ik/zen4_faster_iq4ks_iq5ks
git:ik/iq5_ks_r4
git:ik/fix_iq4k_avx2
git:ik/add_missing_mmq_iq5ks
git:ik/iq5_ks
git:ik/fix_standard_attention_cpu
git:ik/cuda_mmq_iq2_k
git:ik/cuda_mmq_iq4_k
git:ik/fix_ser_cuda
git:ik/fix_ser
git:ik/fix_412
git:ik/fix_mla_imatrix
git:ik/cpu_deepseek_fa
git:ik/enable_mla3_in_crippled_ggufs
git:ik/cuda_flash_mla3_v2
git:ik/fix_cuda_fa_race
git:ik/offload_policy
git:ik/remove_unnessessary_ids_copy
git:s6/rope_freq_fix
git:ik/cuda_fix_quantized_flash_mla3
git:ik/handle_incompatible_deepseek_ggufs
git:ik/fix_deepseek_q80_cache
git:ik/fix_xeon_6226R
git:ik/cuda_flash_mla3
git:s6/deci_support
git:ik/fix_deepseek_fattn
git:ik/sweep_bench_warmup
git:ik/cuda_mmq_iq4_ks
git:ik/try_fix_367_v2
git:ik/fattn_mma
git:ik/try_fix_367
git:s6/bitnet_name_update
git:ik/fix_fa_avx2_bug
git:s6/qwen3_dynamic_yarn
git:ikawrakow-patch-1-1
git:ik/fix_358
git:ik/add_missing_enum_values_qwen3
git:ikawrakow-patch-1
git:ik/fattn_work_buffer
git:ik/fix_div_zero
git:ik/fix_q41_q51_arm
git:ik/cohere2
git:ik/arch_flags
git:ik/fix_arm_fa
git:ik/pickup_13095
git:ik/fix_llama4_attention
git:s6/fix_python
git:ik/bitnet_adjustments
git:s6/bitnet2b_2501
git:s6/termux_fix
git:ik/tg_tweaks
git:ik/faster_avx2_q40
git:ik/gemma_q80_kvcache
git:ik/imatrix_lsim
git:ik/hide_imatrix
git:ik/improve_iq1m
git:ik/fix_kld
git:ik/l4_rms_norm
git:ik/llama4
git:ik/improve_iq2ks
git:ik/mla_guard
git:ik/update_license
git:ik/copyright
git:ik/try_fa_no_q80_repack
git:ik/fix_cuda_memcpy_async
git:ik/improve_iq2_xs
git:ik/flax-vector-conversions
git:ik/metal_fattn_update
git:ik/fix_gcc_arm
git:ik/metal_moe
git:ik/fix_neon_q82
git:ik/iqk_q_improvements
git:ik/fix_300
git:ik/interleaved_guards
git:ik/make_qx_quants
git:ik/change_q_pure
git:ik/use_q8_2
git:ik/test_q80_NaNs
git:s6/numa_KV
git:s6/sweep_bench_update
git:ik/deepseek_is_this_better
git:ik/llama_bench_tgb
git:ik/cuda_better_moe
git:ik/better_batched_processing
git:ik/test_thp
git:ik/cuda_native
git:ik/fix_again_cmake
git:ik/better_flash_mla
git:ik/gemma3
git:ik/bug_missing_parentheses
git:ik/offline_repack_patterns
git:ik/FlashMLA-3
git:ik/offline_repack
git:ik/tensor_override_honor_mmap
git:ik/fix_dup_q
git:ik/avoid_cuda_mla_1
git:ik/mla2_q80_cache_cpu
git:ik/mla2_q80_cache
git:ik/fix_pr_261
git:ik/use_bf16_when_no_mmq
git:ik/flash_mla2_cuda_no_f32
git:ik/prepare_wk_b
git:ik/flash_mla2_no_f32
git:ik/cuda_flash_mla_q8_0
git:ik/flash_precision
git:ik/mla_imatrix
git:ik/cuda_faster_moe_tg
git:ik/flash_mla_4
git:ik/flash_mla_2
git:ik/custom_q_rules
git:ik/better_tg_fattn
git:ik/cuda_fattn_Dk_Dv
git:ik/flash_mla
git:ik/smart_expert_selection
git:ik/measure_barriers
git:ik/reduce_compute_buffers
git:ik/mla_no_transposed_cache
git:ik/cuda_mla2
git:ik/cuda_mla
git:ik/buffer_type_overrides
git:s6/rpc
git:ik/issue_230
git:ik/fused_up_gate_unary
git:s6/sweep_bench
git:ik/issue_224
git:ik/issue_217
git:ik/fuse_moe_up_gate
git:ik/attn_gemm
git:ik/fix_avx512_vs_fancy_simd
git:ik/issue_214
git:ik/fix_neon_legacy_quants
git:ik/gemm_iq1s
git:ik/q8_KV
git:ik/repack_also_experts
git:ik/gemm_4d
git:ik/mla_q80
git:ik/mla_fixes
git:ik/fix_missing_bf16_avx512
git:ik/fix_imatrix_nonsense
git:ik/fattn_Dk_Dv
git:s6/warmup
git:ik/try_trellis
git:ik/iqk_fattn_all_quants
git:ik/mla
git:s6/mla
git:ik/iq1_s_r4_k128
git:ik/revert_0bf4d997
git:ik/iq1_s_checks
git:ik/cuda_rms_non_contiguous
git:ik/rename_4_8
git:ik/iq1_m_r4
git:ik/iq1_s_r4_neon
git:ik/iq1_s_r4
git:ik/qmix_tweaks_2
git:ik/qx_k_b32_avx2
git:ik/bench_gp
git:ik/q4_0_r8
git:ik/iq4_xs_r8_v2
git:ik/chat_templates
git:ik/gemv_bf16_r16
git:ik/avx2_bf16
git:ik/zen4_repack_f16
git:ik/fattn_kqv
git:ik/fattn_bf16
git:ik/fix_fattn_odd_even
git:ik/fix_mul_mat_16
git:ik/convert_i2s
git:ik/falcon3a
git:ik/falcon3
git:ik/cuda_q4_0_r4
git:ik/mv_q4_0_r4
git:ik/iq3_s_r4_v2
git:ik/iq3_s_r4
git:ik/fix_windows
git:ik/qx_0_r4_avx2
git:ik/r4_nrcy_16
git:ik/iq2_s_r4
git:ik/iq2_xs_r4
git:ik/iq2_xxs_r4
git:ik/iq3_xxs_r4_v2
git:ik/iq3_xxs_r4
git:ik/iq4_ks_r4
git:ik/iq5_k_r4
git:ik/avx2_r4_tweaks
git:ik/run_time_repack
git:ik/iq2_k_r4
git:ik/iq3_k_r4_v2
git:ik/iq4_k_r4_avx2
git:ik/iq4_xs_r4_avx2
git:ik/iq4_xs_r8
git:ik/bf16_r4
git:ik/q8_k_r8
git:ik/r4_faster_zen4
git:ik/iq4_k_r4
git:ik/fix_avx2_iq4_nl_r4
git:ik/q2_k_r4
git:ik/arm_better_r4
git:ik/q3_k_r4
git:ik/q5_k_r4
git:ik/q4_k_r4_v3
git:ik/q6_k_r4
git:ik/q4_k_r4_v2
git:ik/zen4_iq4_xs_r4
git:ik/rename_iq4_nl_x4
git:ik/r4_neon
git:ik/q4_k_r4
git:ik/iq2_bn_r4
git:ik/iq4_xs_r4
git:ik/q6_0_r4
git:ik/q5_0_r4
git:ik/q8_0_r4
git:ik/q4_0_r4
git:ik/iq4_nl_x4
git:ik/iq4kss_experiments
git:ik/iq2ks_experiments
git:ik/q60_mmq
git:ik/faster_iq4k
git:ik/multi_add
git:ik/moe_fused_unary
git:ik/bitnet_fused_unary
git:ik/bitnet_cuda
git:ik/bitnet_improve_metal
git:ik/iq1bn_metal
git:ik/adapt_iq1_iq2_bn
git:ik/fix_quantized_k_cache
git:ik/add_granite
git:ik/fattn_enable_q6_0
git:ik/fattn_enable_iq4_nl
git:ik/bitnet_optional_scales
git:ik/cached_graph
git:ik/fix_reduce_windows
git:ik/iq4_knn
git:ik/iq4_kss
git:ik/metal_faster_iq4ks
git:ik/metal_fix_iq3k
git:ik/metal_fix_iq2k
git:ik/iq2k_experiments
git:ik/better_model_info
git:ik/iq3_ks
git:ik/iq4_k_xxs
git:ik/qstats
git:ik/cleanup_fudge_factors
git:ik/cpp_17
git:ik/skip_unnecessary_quantize
git:ik/faster_q60_avx2
git:ik/fused_mul_unary
git:ik/add_q60
git:ik/faster_iq4nl_quantize
git:ik/fix_q5_0_fa
git:ik/iq4nl_kv_cache
git:ik/cuda_faster_iq4nl_kvcache
git:ik/better_iq4_nl
git:ik/try_svd
git:ik/better_iqk_strategy
git:ik/bf16_kv_cache
git:ik/fix_replace_all
git:ik/non_contiguous_rope
git:ik/swiglu
git:ik/phi3.5_tweaks
git:ik/play_with_barrier
git:ik/per_row_scale
git:ik/fix_metal_fa
git:ik/fix_ggml_common
git:ik/hsums
git:ik/metal_bf16
git:ik/neon_bf16
git:ik/cuda_bf16
git:ik/avx2_q5_0
git:ik/avx2_q4_0_q8_0
git:ik/qmix_tweaks
git:ik/fix_kq
git:ik/neon_flash_attention_3
git:ik/avx2_flash_attn_2
git:ik/neon_flash_attention_2
git:ik/avx2_flash_attn
git:ik/iq2_tn_avx2
git:ik/iq2_tn_as_iq2_bn
git:ik/iq1_tn_metal
git:ik/iq1_tn_cuda
git:ik/iq1_tn
git:ik/iq2_tn_faster_pp
git:ik/fused_rms_norm
git:ik/mul_mat_bf16
git:ik/zen4_flash_attn_bf16
git:ik/neon_improve_legacy_quants
git:ik/zen4_flash_attn_2
git:ik/fix_flash_attn
git:ik/fix_multiple_choice
git:ik/zen4_flash_attn
git:ik/kq_fused_softmax
git:ik/fix_no_iqk_build
git:ik/kq_mask
git:ik/fused_softcap_softmax
git:ik/softcap_minor
git:ik/softcap
git:ik/iq4_k_tweaks
git:ik/quantize_q8k_avx2
git:ik/quantize_stats
git:ik/iq2_k_tweak
git:ik/skip_noop_barriers
git:ik/merge_Aug_12_2024
git:ik/fix_Makefile
git:ik/iq6_k
git:ik/iq2_tn
git:ik/trinet
git:ik/faster_iq3_iq5_quantize
git:ik/faster_iq4k_quantize
git:ik/iq2_k
git:ik/iq4_k
git:ik/fuse_mul_mat_scale
git:ik/merge_July_26_2024
git:ik/bitnet_token_embedding_gpu_2
git:ik/bitnet_token_embedding_gpu
git:ik/mul_mat_ext
git:ik/new_iq1bn
git:t0002
1 Commits
main
...
ik/q3next_
| Author | SHA1 | Message | Date | |
|---|---|---|---|---|
|
|
400efc23b6 | Faster Qwen3-Next PP on CUDA - optimize concat |
1 changed files with 8 additions and 0 deletions
|
|
@ -266,6 +266,14 @@ void ggml_cuda_op_concat(ggml_backend_cuda_context & ctx, ggml_tensor * dst) {
|
|||
GGML_ASSERT(src1->type == GGML_TYPE_F32);
|
||||
GGML_ASSERT(dst->type == GGML_TYPE_F32);
|
||||
|
||||
if (ggml_is_contiguous(src0) && ggml_is_contiguous(src1) && ggml_is_contiguous(dst) && dim == 2 && dst->ne[3] > 1 && src1->ne[2] == 1) {
|
||||
float * dst_d = (float *)dst->data;
|
||||
float * src0_d = (float *)src0->data;
|
||||
float * src1_d = (float *)src1->data;
|
||||
concat_f32_cuda(src0_d, src1_d, dst_d, src0->ne[0]*src0->ne[1]*src0->ne[2], src0->ne[3], 1, dst->ne[0]*dst->ne[1]*dst->ne[2], dst->ne[3], 1, 0, stream);
|
||||
return;
|
||||
}
|
||||
|
||||
if (ggml_is_contiguous(src0) && ggml_is_contiguous(src1)) {
|
||||
//if (dst->ne[1] >= 65536 || dst->ne[2] >= 65536) {
|
||||
// fprintf(stderr, "%s: ne1 = %ld, ne2 = %ld exceed max. blocks when computing %s\n", __func__, dst->ne[1], dst->ne[2], dst->name);
|
||||
|
|
|
|||
Write
Preview
Loading…
Reference in New Issue
Block a user
Blocking a user prevents them from interacting with repositories, such as opening or commenting on pull requests or issues. Learn more about blocking a user.