Budoucnost LLM: Google DeepMind rozšiřuje okna na 1–2 M a plánuje 10 milionů tokenů

| David

Google DeepMind rozšiřuje kontextová okna svých jazykových modelů až na 1–2 miliony tokenů a kombinuje je s RAG, aby zlepšil přístup k relevantním znalostem a snížil náklady na inferenci. Nové techniky jako context caching a pečlivé promptingové instrukce posouvají hranice toho, co mohou LLMs zvládnout v oblasti dlouhodobé paměti a agentických systémů.

Google DeepMind nedávno představilo významné pokroky v oblasti dlouhého kontextu pro velké jazykové modely (LLMs). Vedoucí výzkumník Nikolay Savinov vysvětlil, že kontextové okno – souhrn tokenů dodaných modelem v promptu, předchozích interakcích či nahraných souborech – je klíčové pro přístup k aktuálním a personalizovaným informacím. Rozšíření oken až na 1–2 miliony tokenů umožňuje modelům čerpat ze širších korpusů znalostí a zvyšuje kvalitu odpovědí i při náročných úlohách.

Vedle dlouhého kontextu byla zdůrazněna spolupráce s technikou Retrieval Augmented Generation (RAG), která dohledává relevantní fragmenty z rozsáhlých databází a vkládá je do promptu modelu. Pro vývojáře DeepMind doporučuje využití context caching, které optimalizuje opakované dotazy na stejná data, a pečlivé promptingové instrukce („na základě výše uvedených informací“) pro minimalizaci konfliktů mezi pamětí v kontextu a pamětí „v vahách“.

Přestože model 2.5 Pro již výrazně překonává baseline na 128 k a 1 milion tokenů bez efektu „lost in the middle“, další škálování nad 2 miliony tokenů zatím naráží na náklady na inferenci a technologické limity infrastruktury. DeepMind však očekává, že s dalším zlepšením architektur a úspornějšími postupy se do běžného užívání dostanou kontextová okna až do 10 milionů tokenů, což by mohlo zásadně proměnit například kódovací aplikace či agentické systémy s trvalou pamětí.