2025

Moonshot släpper nytt LLM: Kimi K2 Thinking

Kimi K2 Thinking är Moonshot AI:s senaste AI-modell som släpptes öppen källkod. Det kinesiska startupen som stöds av Alibaba har byggt modellen som en ”tänkande agent”. Modellen använder en Mixture-of-Experts…

RL without TD learning

In this post, I’ll introduce a reinforcement learning (RL) algorithm based on an “alternative” paradigm: divide and conquer. Unlike traditional methods, this algorithm is not based on temporal difference (TD)…