Az Apple bemutatta MM1 multimodális AI modelljét - 10perc.hu

401.58 Ft

361.88 Ft

Támogatás

Kiemelt kategóriák

Belföld
Gazdaság
Külföld
Kultúra
Sport
Tech
Életmód
Autó

További kategóriák

Szórakozás
Tech

Az Apple bemutatta MM1 multimodális AI modelljét

10perc.hu
2024. 03. 18.
Főkép forrása: Flickr
Az Apple bemutatta MM1 multimodális AI modelljét

Az Apple MM1 egy multimodális mesterséges intelligenciamodell, amely felépítésének és kifinomult képzésének köszönhetően vizuális feladatokban felveszi a versenyt a GPT-4V-vel és a Google Geminivel.

A GPT-4V-hez és a Geminihez hasonlóan az MM1 is a Large Language Model (LLM) architektúrán alapul, és kép-szöveg párok, egymásba illesztett kép-szöveg dokumentumok és csak szöveges adatok keverékén lett betanítva (45% kép-szöveg párok, 45% egymásba illesztett kép-szöveg dokumentumok, 10% csak szöveges adatok). Ez a tréningprogram lehetővé tette, hogy az MM1 a riválisaihoz hasonló képességeket fejlesszen ki, beleértve a képleírást, a kérdések megválaszolását és még az alapvető matematikai problémamegoldást is - közölte a The Decoder.

Az Apple kutatói mélyreható vizsgálatokat végeztek az MM1 teljesítményét leginkább befolyásoló tényezők, például az architektúrális összetevők és a képzési adatok azonosítása érdekében. Felfedezték, hogy a nagy képfelbontás, a képfeldolgozó komponens (az úgynevezett "vizuális kódoló") teljesítménye és a képzési adatok mennyisége különösen fontos. Érdekes módon a kép és a nyelv közötti kapcsolatot kevésbé találták kritikusnak.

A vizuális kódoló feladata a képi információk átalakítása olyan formátumba, amelyet a mesterséges intelligencia rendszer képes feldolgozni. Minél fejlettebb ez a kódoló, annál jobban megérti és értelmezi a képtartalmat az MM1.

A kutatás rávilágít a képzési adatok megfelelő keverékének fontosságára is. A kép-szöveg párok, az egymásba illesztett kép-szöveg adatok és a csak szöveges adatok elengedhetetlenek voltak ahhoz, hogy a bemeneti kérdőívben szereplő korlátozott számú példával erős eredményeket érjünk el. Amikor azonban az MM1-nek a promptban szereplő példák nélkül kellett kimeneteket generálnia, a kép-szöveg párok a képzési adatokban jelentősebb szerepet játszottak.

A kép-szöveg párok vagy kép-felirat párok olyan adatok, amelyekben minden egyes kép közvetlenül párosul egy hozzá tartozó szöveggel. Ez a szöveg általában a kép tartalmának leírása vagy magyarázata. Egy példa erre egy kutya képe a következő felirattal: "Egy barna kutya labdával játszik a parkban". Az ilyen párosított adatokat gyakran használják modellek képzésére olyan feladatokhoz, mint például az automatikus képcímkézés.

Másrészt az átlapolt kép-szöveg adatok olyan adatok, amelyekben a képek és a szöveg vegyes sorrendben jelennek meg, anélkül, hogy minden egyes képet szükségszerűen közvetlenül egy adott szöveghez társítanának. Erre példa lehet egy hírcikk, amely ugyanarra a témára vonatkozó képek és szöveges részek keverékéből áll, de nem feltétlenül 1:1 arányban. Az ilyen adatok általában azt tükrözik, ahogyan a vizuális és szöveges információk gyakran együtt fordulnak elő természetes kontextusokban.

Kimutatták, hogy mindkét adattípus - azaz mind a kép-szöveg párok, mind a vegyes kép-szöveg adatok - keveréke a csak szöveges adatokkal együtt előnyös a multimodális AI modellek képzéséhez, különösen, ha kevés példával jó eredményeket lehet elérni (Few-Shot Learning).

Az MM1 olyan összetettebb esetekben is kiválóan teljesít, mint például a több képből történő következtetés, ahol több képből származó információkat képes kombinálni, hogy komplex kérdésekre válaszoljon, vagy olyan következtetéseket vonjon le, amelyek egyetlen képből nem vonhatók le. Ez segíthet az MM1-nek abban, hogy az emberi érzékeléshez és gondolkodáshoz nagyon hasonlóan megértse és értelmezze a való világot.


További cikkek