Ollama now - 檔案總覽

主帖子 @harishgoswamicse

❤️ 73

Ollama now runs on Apple's MLX framework. On M5 chips, that means 1,851 tokens per second prefill and 134 tokens per second decode with int4.

For context, that is a local coding agent running faster than most cloud inference endpoints.

What changed under the hood:

- Cache now reuses across conversations, so Claude Code and similar tools get faster responses with less memory burn
- NVFP4 support brings production-grade model accuracy to local inference

📎 附加媒體：
[影片] https://scontent-yyz1-1.cdninstagram.com/o1/v/t16/f2/m84/AQPYs18uBHy9JYfz_rNALCbwID-9pIxNsXuGnjmGGL0RMHA2OBxqEfZNgSGx7O1XTAjM01rYVhBsJhUVXGt7OaFnW91tusw4cHw8M-I.mp4?_nc_cat=102&_nc_sid=5e9851&_nc_ht=scontent-yyz1-1.cdninstagram.com&_nc_ohc=LDivk6szRI8Q7kNvwHlMnB9&efg=eyJ2ZW5jb2RlX3RhZyI6Inhwdl9wcm9ncmVzc2l2ZS5JTlNUQUdSQU0uRkVFRC5DMy4xMTA0LmRhc2hfYmFzZWxpbmVfMV92MSIsInhwdl9hc3NldF9pZCI6MTc4NTQwMzc4MjY2ODg4NzcsImFzc2V0X2FnZV9kYXlzIjoxLCJ2aV91c2VjYXNlX2lkIjoxMDE2NCwiZHVyYXRpb25fcyI6NywidXJsZ2VuX3NvdXJjZSI6Ind3dyJ9&ccb=17-1&vs=ad861c076f36caf4&_nc_vs=HBkcFQIYTGlnX2JhY2tmaWxsX3RpbWVsaW5lX3ZvZC85RDQ4NEFEQjgzQjVGRTIyMjY5NDIzN0YxMzRCMDlCNV92aWRlb19kYXNoaW5pdC5tcDQVAALIARIAKAAYABsCiAd1c2Vfb2lsATEScHJvZ3Jlc3NpdmVfcmVjaXBlATEVAAAm2t265-OJtz8VAigCQzMsF0AdEGJN0vGqGBJkYXNoX2Jhc2VsaW5lXzFfdjERAHXqB2XongEA&_nc_gid=s8nHX1QD8RF89wUAklHwGw&_nc_zt=28&_nc_ss=7a32e&oh=00_Af1HQNKGBG-BWyc2LzKajBUiK7HLeXjI66S8I1hpbGYXJQ&oe=69CEB786

回覆 @harishgoswamicse

❤️ 9

- Intelligent checkpoints cut prompt reprocessing on every branch

You need a Mac with 32GB+ unified memory. If you have that, a 35B parameter model now runs locally at speeds that make the cloud optional, not mandatory.

The line between local and cloud inference just got a lot thinner.

回覆 @_keen_

❤️ 0

Call me when it’s beyond alfa