391.64 Ft

365.34 Ft

Támogatás

Kiemelt kategóriák

Belföld
Gazdaság
Külföld
Kultúra
Sport
Tech
Életmód
Autó

További kategóriák

Szórakozás
Tech

Az Apple bemutatta MM1 multimodális AI modelljét

10perc.hu
2024. 03. 18.
Az Apple bemutatta MM1 multimodális AI modelljét

Az Apple MM1 egy multimodális mesterséges intelligenciamodell, amely felépítésének és kifinomult képzésének köszönhetően vizuális feladatokban felveszi a versenyt a GPT-4V-vel és a Google Geminivel.

A GPT-4V-hez és a Geminihez hasonlóan az MM1 is a Large Language Model (LLM) architektúrán alapul, és kép-szöveg párok, egymásba illesztett kép-szöveg dokumentumok és csak szöveges adatok keverékén lett betanítva (45% kép-szöveg párok, 45% egymásba illesztett kép-szöveg dokumentumok, 10% csak szöveges adatok). Ez a tréningprogram lehetővé tette, hogy az MM1 a riválisaihoz hasonló képességeket fejlesszen ki, beleértve a képleírást, a kérdések megválaszolását és még az alapvető matematikai problémamegoldást is - közölte a The Decoder.

Az Apple kutatói mélyreható vizsgálatokat végeztek az MM1 teljesítményét leginkább befolyásoló tényezők, például az architektúrális összetevők és a képzési adatok azonosítása érdekében. Felfedezték, hogy a nagy képfelbontás, a képfeldolgozó komponens (az úgynevezett "vizuális kódoló") teljesítménye és a képzési adatok mennyisége különösen fontos. Érdekes módon a kép és a nyelv közötti kapcsolatot kevésbé találták kritikusnak.

A vizuális kódoló feladata a képi információk átalakítása olyan formátumba, amelyet a mesterséges intelligencia rendszer képes feldolgozni. Minél fejlettebb ez a kódoló, annál jobban megérti és értelmezi a képtartalmat az MM1.

A kutatás rávilágít a képzési adatok megfelelő keverékének fontosságára is. A kép-szöveg párok, az egymásba illesztett kép-szöveg adatok és a csak szöveges adatok elengedhetetlenek voltak ahhoz, hogy a bemeneti kérdőívben szereplő korlátozott számú példával erős eredményeket érjünk el. Amikor azonban az MM1-nek a promptban szereplő példák nélkül kellett kimeneteket generálnia, a kép-szöveg párok a képzési adatokban jelentősebb szerepet játszottak.

A kép-szöveg párok vagy kép-felirat párok olyan adatok, amelyekben minden egyes kép közvetlenül párosul egy hozzá tartozó szöveggel. Ez a szöveg általában a kép tartalmának leírása vagy magyarázata. Egy példa erre egy kutya képe a következő felirattal: "Egy barna kutya labdával játszik a parkban". Az ilyen párosított adatokat gyakran használják modellek képzésére olyan feladatokhoz, mint például az automatikus képcímkézés.

Másrészt az átlapolt kép-szöveg adatok olyan adatok, amelyekben a képek és a szöveg vegyes sorrendben jelennek meg, anélkül, hogy minden egyes képet szükségszerűen közvetlenül egy adott szöveghez társítanának. Erre példa lehet egy hírcikk, amely ugyanarra a témára vonatkozó képek és szöveges részek keverékéből áll, de nem feltétlenül 1:1 arányban. Az ilyen adatok általában azt tükrözik, ahogyan a vizuális és szöveges információk gyakran együtt fordulnak elő természetes kontextusokban.

Kimutatták, hogy mindkét adattípus - azaz mind a kép-szöveg párok, mind a vegyes kép-szöveg adatok - keveréke a csak szöveges adatokkal együtt előnyös a multimodális AI modellek képzéséhez, különösen, ha kevés példával jó eredményeket lehet elérni (Few-Shot Learning).

Az MM1 olyan összetettebb esetekben is kiválóan teljesít, mint például a több képből történő következtetés, ahol több képből származó információkat képes kombinálni, hogy komplex kérdésekre válaszoljon, vagy olyan következtetéseket vonjon le, amelyek egyetlen képből nem vonhatók le. Ez segíthet az MM1-nek abban, hogy az emberi érzékeléshez és gondolkodáshoz nagyon hasonlóan megértse és értelmezze a való világot.


Főkép forrása:
Flickr

További cikkek