Ειδήσεις: VLLM | PXAI

Version	Description	Date
8.42	[ADDED SOURCE REGISTRY LIST VIEW]	04/03/2026 16:19
8.41	[LOCALIZED INDEX.PHP MENU AND MODALS TO US ENGLISH]	04/03/2026 16:11
8.40	[TRANSLATED FRONTEND TO US ENGLISH]	04/03/2026 16:10
8.41	[RESTORED DETAILED SOURCES VIEW (ARTICLES + EVENTS) IN US ENGLISH]	04/03/2026 15:50
8.41	[RESTORED DETAILED SOURCES VIEW (ARTICLES + EVENTS) IN US ENGLISH]	04/03/2026 15:46
8.40	[REVERTED TO STANDARD TABLE LAYOUT (US ENGLISH)]	04/03/2026 15:40
8.39	[FIXED DB CONNECTION SCOPE IN SOURCES LOGIC]	04/03/2026 15:38
8.38	[TRANSLATED SOURCES VIEW TO US ENGLISH]	04/03/2026 15:01
8.37	[FULL FRONTEND TRANSLATION (MENU, FEED, COMMENTS, TTS) TO US ENGLISH.]	04/03/2026 14:58
8.67	[MANUAL OVERRIDE OF GREEK MENU ITEMS]	04/03/2026 13:36
8.66	[NGINX OPTIMIZED MENU FIX]	04/03/2026 13:33
8.65	[FIXED GREEK MENU ITEMS]	04/03/2026 13:32
8.60	[MENU & UI LOCALIZATION TO US ENGLISH]	04/03/2026 13:30
8.50	[FULL TRANSLATION TO US ENGLISH]	04/03/2026 13:27
9.75	[INJECTED EVENT FUSION_SUMMARY INTO FEED LOOPS TO DISPLAY AI TAGS CORRECTLY]	26/02/2026 14:44

01/04 03:42 dev.to

From one model to seven — what it took to make TurboQuant model-portable

TurboQuant KV cache compression vLLM fused paged kernels HBM traffic Llama 3.1

01/04 03:23 dev.to

Complete Guide to llm-d CNCF Sandbox — Kubernetes-Native Distributed LLM Inference

llm-d CNCF Sandbox Kubernetes distributed inference LLM vLLM

01/04 01:53 dev.to

Deep Dive into vLLM: How PagedAttention & Continuous Batching Revolutionized LLM Inference

vLLM LLM serving GPU memory PagedAttention Continuous Batching inference throughput

31/03 15:50 dev.to

LLM Inference Optimization: Techniques That Actually Reduce Latency and Cost

LLM inference GPU optimization vLLM SGLang Prometheus Runpod

28/03 00:57 dev.to

I shipped Google's TurboQuant as a vLLM plugin 72 hours after the paper — here's what nobody else tested

TurboQuant vLLM plugin KV cache compression 4‑bit quantization memory reduction text models

26/03 23:08 dev.to

vLLM On-Demand Gateway: Zero-VRAM Standby for Local LLMs on Consumer GPUs

vLLM GPU VRAM LLM FastAPI On‑Demand

25/03 19:34 dev.to

EVAL #008: NVIDIA Just Open-Sourced an Inference Engine. Now What?

NVIDIA Dynamo AI inference PyTorch 2.7 vLLM SGLang Transformers

24/03 17:36 dev.to

Catching a vLLM Latency Spike with eBPF and an Open-Weight LLM

eBPF vLLM MiniMax Ollama MCP open‑source

22/03 14:19 dev.to

llama.swap Model Switcher Quickstart for OpenAI-Compatible Local LLMs

llama‑swap local LLM OpenAI API proxy model switching vLLM

22/03 14:19 dev.to

llama.swap Model Switcher Quickstart for OpenAI-Compatible Local LLMs

llama‑swap local LLM OpenAI API proxy model switching vLLM

Loading...