Mistral, en fransk oppstart av kunstig intelligens (AI), har sementert sin posisjon som en stor forstyrrer i AI-industrien. Og den har én modell å takke for dette – Pixtral Large. Her er alt du trenger å vite om det.
Hva er Pixtral?
Pixtral er en sofistikert multimodal språkmodell. Så langt består Pixtral-familien av to modeller – Pixtral 12B og Pixtral Large. Siden Pixtral Large praktisk talt er en kraftigere versjon av forgjengeren – Pixtral 12B – vil denne veiledningen først og fremst fokusere på dens evner.
Denne Pixtral-modellen med 124B-parameter består av to deler – en tekstdekoder og en visjonsdekoder. Førstnevnte fokuserer på å forstå skriftspråk. Sistnevnte hjelper modellen å forstå bilder. Denne kombinasjonen gir Pixtral Large en unik evne til å jobbe med både tekst og bilder samtidig, noe som gir den den flatterende tittelen som en “multimodal” modell.
Pixtral Large kan håndtere en enorm mengde informasjon – opptil 30 høyoppløselige bilder eller tilsvarende en 300-siders bok på én gang. Dette gjør den like kraftfull som andre ledende AI-modeller, som de fra OpenAI.
Hva er hovedfunksjonene til Pixtral Large?
Noen av nøkkelfunksjonene til denne Pixtral-modellen er åpenbare fra beskrivelsen. La oss likevel dele disse funksjonene ned og grave litt dypere.
Et ekspansivt kontekstvindu for komplekse oppgaver
Et kontekstvindu refererer til mengden tekst en modell kan “huske” eller behandle på en gang. I denne forbindelse forblir Pixtral Large tro mot navnet sitt. Den har et stort kontekstvindu på 128 000 tokens. Dette betyr at den kan behandle store biter av data uten å dele den opp i mindre deler.
Fleksibel visjonsbehandling på tvers av oppløsninger
Pixtral Large er som nevnt utstyrt med en vision-koder. Vel, den koderen kan behandle bilder med forskjellige oppløsninger. Denne fleksibiliteten gjør at modellen kan tilpasse seg ulike typer oppgaver. En rask bildebehandling eller en høypresisjonsanalyse… det er det samme med denne Pixtral-modellen.
Standardisert ytelse med MM-MT-benk
Mistral utviklet en åpen kildekode-benchmark kalt MM-MT-Bench. Målet med dette verktøyet er å gi konsistente evalueringsstandarder for multimodale modeller som Pixtral Large. Som et resultat kan forskere vurdere hvor godt Pixtral Large presterer sammenlignet med andre modeller.
Avansert multimodal resonnement
Pixtral Large har blitt trent på datasett som kombinerer både tekst og bilde. Opplært – og finjustert. Dette gjør at den kan følge komplekse instruksjoner som involverer begge typer data samtidig. For eksempel kan en chatbot for kundestøtte analysere både et bilde av et skadet produkt og kundens melding som forklarer problemet på samme tid. Pixtral Large ville tillate den å forstå problemet grundig og opprettholde konteksten på tvers av flere utvekslinger. Det er ikke å nevne også å gi en nøyaktig løsning til slutt.
Skalerbarhet på tvers av applikasjoner
Med Pixtral Large kan du takle praktisk talt alle oppgaver. Du kan gjøre noe lite og spesifikt som å analysere en kontrakt. Eller Pixtral Large kan hjelpe deg med å bygge en multimodal søkemotor for e-handel. Det er bare så allsidig. Denne allsidigheten gjør denne Pixtral-modellen ideell for et bredt spekter av bransjer og bruksområder. Vanlige eksempler fra den virkelige verden inkluderer:
- Dokumentanalyse og styring i juridisk og finansnæringen
- Datavisualisering og analyse i forskning og datavitenskap
- Kundestøtte innen e-handel og teknologi
Hvordan er Pixtral Large sammenlignet med store multi-modale konkurrenter?
Mistral kan være en relativt ny aktør i AI-området. Imidlertid kan den allerede konkurrere med AI-giganter. Ikke bare det, men det kan overgå dem.
Pixtral Large fortsetter denne trenden. Denne Pixtral-modellen har utmerket seg i benchmark-tester mot topp multimodale modeller. Her er bare noen få høydepunkter.
- Utkonkurrerte Claude-3.5, Sonnet og Llama-3.2 i matematisk resonnement med visuelle data
- Overgått GPT-4o og Gemini-1.5 Pro i forståelse og resonnement med diagrammer, tabeller og skannede dokumenter
- Utkonkurrerte Claude-3.5, Sonnet, Gemini-1.5 Pro og GPT-4o i virkelige multimodale applikasjoner med tekst og bilde