NexaSDK 让你用极低能耗打造最快、最聪明的本地 AI。 它是一套高性能本地推理框架,只需几行代码即可在 Android、Windows、Linux、macOS 与 iOS 的 NPU、GPU、CPU 上运行最新的多模态 AI 模型。
NexaSDK 往往能比其他人提前数周甚至数月支持最新模型 —— Qwen3-VL、DeepSeek-OCR、Gemma3n(视觉版)等。
⭐ star本仓库,及时获取最新的本地 AI 能力更新与发布。
- Qualcomm 官方博客中 3 次重点介绍我们。
- Qwen 为我们在 NPU、GPU、CPU 上 Day-0 支持 Qwen3-VL 做了官方推荐。我们在 GGUF 支持上领先 Ollama 和 llama.cpp 3 周,并且目前只有我们支持 NPU。
- IBM 在官方博客中,将 NexaML 推理引擎与 vLLM、llama.cpp、MLX 并列介绍,感谢我们 Day-0 支持 Granite 4.0。
- Google 认可我们对 EmbeddingGemma Day-0 的 NPU 支持(官方致谢)。
- AMD 在官方博客报道我们在 AMD NPU 上实现 SDXL-turbo 图像生成。
- NVIDIA 在官方博客中介绍了由 NexaSDK 支撑的火爆本地 AI 应用 Hyperlink。
- Microsoft 在 Microsoft Ignite 2025 上台展示了我们作为官方合作伙伴。
- Intel 在官方帖子中提到我们对 Intel NPU 的支持。
| 平台 | 链接 |
|---|---|
| 🖥️ CLI | 快速开始 | 文档 |
| 🐍 Python | 快速开始 | 文档 |
| 🤖 Android | 快速开始 | 文档 |
| 🐳 Linux Docker | 快速开始 | 文档 |
| 🍎 iOS | 快速开始 | 文档 |
下载:
| Windows | macOS | Linux |
|---|---|---|
| arm64 (Qualcomm NPU) | arm64 (Apple Silicon) | arm64 |
| x64 (Intel/AMD NPU) | x64 | x64 |
运行你的第一个模型:
# 与 Qwen3 对话
nexa infer ggml-org/Qwen3-1.7B-GGUF
# 多模态:在 CLI 中拖入图片
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
# NPU(Windows arm64,Snapdragon X Elite)
nexa infer NexaAI/OmniNeural-4Bpip install nexaaifrom nexaai import LLM, GenerationConfig, ModelConfig, LlmChatMessage
llm = LLM.from_(model="NexaAI/Qwen3-0.6B-GGUF", config=ModelConfig())
conversation = [
LlmChatMessage(role="user", content="Hello, tell me a joke")
]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=100)):
print(token, end="", flush=True)- 模型类型: LLM、多模态、ASR、OCR、Rerank、目标检测、图像生成、Embedding
- 格式: GGUF、MLX、NEXA
- NPU 模型: Model Hub
- 📖 Python SDK 文档
在 app/AndroidManifest.xml 中添加:
<application android:extractNativeLibs="true">在 build.gradle.kts 中添加:
dependencies {
implementation("ai.nexa:core:0.0.19")
}// 初始化 SDK
NexaSdk.getInstance().init(this)
// 加载并运行模型
VlmWrapper.builder()
.vlmCreateInput(VlmCreateInput(
model_name = "omni-neural",
model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
plugin_id = "npu",
config = ModelConfig()
))
.build()
.onSuccess { vlm ->
vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
}- 要求: Android minSdk 27,Qualcomm Snapdragon 8 Gen 4 芯片
- 模型类型: LLM、多模态、ASR、OCR、Rerank、Embedding
- NPU 模型: Supported Models
- 📖 Android SDK 文档
docker pull nexa4ai/nexasdk:latest
export NEXA_TOKEN="your_token_here"
docker run --rm -it --privileged \
-e NEXA_TOKEN \
nexa4ai/nexasdk:latest infer NexaAI/Granite-4.0-h-350M-NPU- 要求: Qualcomm Dragonwing IQ9,ARM64 系统
- 模型类型: LLM、VLM、ASR、CV、Rerank、Embedding
- NPU 模型: Supported Models
- 📖 Linux Docker 文档
下载 NexaSdk.xcframework 并添加到 Xcode 项目。
import NexaSdk
// 示例:语音识别
let asr = try Asr(plugin: .ane)
try await asr.load(from: modelURL)
let result = try await asr.transcribe(options: .init(audioPath: "audio.wav"))
print(result.asrResult.transcript)- 要求: iOS 17.0+ / macOS 15.0+,Swift 5.9+
- 模型类型: LLM、ASR、OCR、Rerank、Embedding
- ANE 模型: Apple Neural Engine Models
- 📖 iOS SDK 文档
| 功能 | NexaSDK | Ollama | llama.cpp | LM Studio |
|---|---|---|---|---|
| NPU 支持 | ✅ NPU 优先 | ❌ | ❌ | ❌ |
| Android/iOS SDK 支持 | ✅ NPU/GPU/CPU 支持 | ❌ | ||
| Linux 支持(Docker 镜像) | ✅ | ✅ | ✅ | ❌ |
| Day-0 支持 GGUF、MLX、NEXA | ✅ | ❌ | ❌ | |
| 完整多模态支持 | ✅ 图像、音频、文本、Embedding、Rerank、ASR、TTS | |||
| 跨平台支持 | ✅ 桌面、移动(Android、iOS)、车载、IoT(Linux) | |||
| 一行代码即可运行 | ✅ | ✅ | ✅ | |
| OpenAI 兼容 API + Function calling | ✅ | ✅ | ✅ | ✅ |
图例:
✅ Supported |
我们感谢以下项目:
NexaSDK 采用双重许可模式:
- 个人使用:可从 Nexa AI Model Hub 免费获取许可密钥。每个密钥激活 1 台设备的 NPU 使用。
- 商业使用:联系 hello@nexa.ai 获取授权。
如需模型发布合作、商务洽谈或其他问题,请在此处安排会议。
想要更多模型支持、后端支持、设备支持或新功能?我们很乐意听到你的声音!
欢迎在 GitHub 提交 issue,提出你的需求、建议或反馈。你的意见帮助我们确定优先级。
加入社区:
- Discord
- Slack
- Nexa Wishlist —— 提交并为你想要运行在本地的模型投票。
