Az Apple bemutatta MM1 multimodális AI modelljét

A GPT-4V-hez és a Geminihez hasonlóan az MM1 is a Large Language Model (LLM) architektúrán alapul, és kép-szöveg párok, egymásba illesztett kép-szöveg dokumentumok és csak szöveges adatok keverékén lett betanítva (45% kép-szöveg párok, 45% egymásba illesztett kép-szöveg dokumentumok, 10% csak szöveges adatok). Ez a tréningprogram lehetővé tette, hogy az MM1 a riválisaihoz hasonló képességeket fejlesszen ki, beleértve a képleírást, a kérdések megválaszolását és még az alapvető matematikai problémamegoldást is - közölte a The Decoder.

Az Apple kutatói mélyreható vizsgálatokat végeztek az MM1 teljesítményét leginkább befolyásoló tényezők, például az architektúrális összetevők és a képzési adatok azonosítása érdekében. Felfedezték, hogy a nagy képfelbontás, a képfeldolgozó komponens (az úgynevezett "vizuális kódoló") teljesítménye és a képzési adatok mennyisége különösen fontos. Érdekes módon a kép és a nyelv közötti kapcsolatot kevésbé találták kritikusnak.

A vizuális kódoló feladata a képi információk átalakítása olyan formátumba, amelyet a mesterséges intelligencia rendszer képes feldolgozni. Minél fejlettebb ez a kódoló, annál jobban megérti és értelmezi a képtartalmat az MM1.

A kutatás rávilágít a képzési adatok megfelelő keverékének fontosságára is. A kép-szöveg párok, az egymásba illesztett kép-szöveg adatok és a csak szöveges adatok elengedhetetlenek voltak ahhoz, hogy a bemeneti kérdőívben szereplő korlátozott számú példával erős eredményeket érjünk el. Amikor azonban az MM1-nek a promptban szereplő példák nélkül kellett kimeneteket generálnia, a kép-szöveg párok a képzési adatokban jelentősebb szerepet játszottak.

A kép-szöveg párok vagy kép-felirat párok olyan adatok, amelyekben minden egyes kép közvetlenül párosul egy hozzá tartozó szöveggel. Ez a szöveg általában a kép tartalmának leírása vagy magyarázata. Egy példa erre egy kutya képe a következő felirattal: "Egy barna kutya labdával játszik a parkban". Az ilyen párosított adatokat gyakran használják modellek képzésére olyan feladatokhoz, mint például az automatikus képcímkézés.

Másrészt az átlapolt kép-szöveg adatok olyan adatok, amelyekben a képek és a szöveg vegyes sorrendben jelennek meg, anélkül, hogy minden egyes képet szükségszerűen közvetlenül egy adott szöveghez társítanának. Erre példa lehet egy hírcikk, amely ugyanarra a témára vonatkozó képek és szöveges részek keverékéből áll, de nem feltétlenül 1:1 arányban. Az ilyen adatok általában azt tükrözik, ahogyan a vizuális és szöveges információk gyakran együtt fordulnak elő természetes kontextusokban.

Kimutatták, hogy mindkét adattípus - azaz mind a kép-szöveg párok, mind a vegyes kép-szöveg adatok - keveréke a csak szöveges adatokkal együtt előnyös a multimodális AI modellek képzéséhez, különösen, ha kevés példával jó eredményeket lehet elérni (Few-Shot Learning).

Az MM1 olyan összetettebb esetekben is kiválóan teljesít, mint például a több képből történő következtetés, ahol több képből származó információkat képes kombinálni, hogy komplex kérdésekre válaszoljon, vagy olyan következtetéseket vonjon le, amelyek egyetlen képből nem vonhatók le. Ez segíthet az MM1-nek abban, hogy az emberi érzékeléshez és gondolkodáshoz nagyon hasonlóan megértse és értelmezze a való világot.

AI NEWS: 🍏 Apple introduces MM1, a multimodal AI with an architecture that competes with GPT-4V & Google Gemini

Here's what you need to know:

🧠 MM1's training includes 45% image-text pairs & 45% interleaved documents, fine-tuned to master image description, Q&A, and basic… pic.twitter.com/RpoWUIIAQW
— The Artificially Intelligent Enterprise (@theaienterprise) March 18, 2024

Az Apple bemutatta MM1 multimodális AI modelljét

További cikkek

Új légszűrő forradalmasíthatja a szén-dioxid kivonását a légkörből

GPS-adatok segíthetnek felgyorsítani a városi közlekedést

Lemondott az Apple AI-vezetője

Új áttörés: kiderült, miért nem ismerik fel szeretteiket az Alzheimer-betegek

iPhone Air kamerateszt: meglepően szerény teljesítmény félmillió forintért

Bajban az OpenAI, új korszak kezdődhet az MI-piacon

Hogyan optimalizáld az otthoni hálózatod? Switch használata lépésről lépésre

Megérkezett a mentőűrhajó: végre biztonságban a Tienkung legénysége

Tömeges Facebook-lopások Magyarországon: ilyen üzenetre soha ne kattintson

Drágulnak az okostelefonok: az AI-boom felborította a memóriapiacot

Friss cikkek

3 perccel ezelőtt
Jelentős növekedés a Fidesz táborában - zárkózik a kormánypárt

10 perccel ezelőtt
Magyar Péter 70 milliárdos iskolakezdési támogatást ígér 700 ezer rászoruló családnak

27 perccel ezelőtt
Trump új építészcéget választott a Fehér Ház gigantikus bálterméhez – tovább nő a projekt mérete

48 perccel ezelőtt
Kiabálásig fajult a vita Hankó Balázs és egy diák között a BGE rendezvényén

1 órával ezelőtt
Megszüntették a nyomozást a Balog Zoltánt érintő zsinati határozat ügyében

Népszerű cikkek

Új áttörés: kiderült, miért nem ismerik fel szeretteiket az Alzheimer-betegek

GPS-adatok segíthetnek felgyorsítani a városi közlekedést

Lemondott az Apple AI-vezetője

Új légszűrő forradalmasíthatja a szén-dioxid kivonását a légkörből

Budapest

Lesz-e idén fehér karácsony Budapesten? Így alakul az időjárás

Budapest ünnepi vására az európai ranglista élére került

Idén már fizetni kell a parkolásért a két ünnep között Budapesten

Karácsony: Budapestet nem lehet letérdepeltetni

Új rozsdaövezeteket és hét lakótelepet nyilvánított kiemelt beruházássá a kormány

Kapcsolódó cikkek

Lemondott az Apple AI-vezetője

Magyar szerint lebukott a Fidesz: mesterséges intelligencia gyártotta a bizonyítékokat

Bajban az OpenAI, új korszak kezdődhet az MI-piacon

Drágulnak az okostelefonok: az AI-boom felborította a memóriapiacot

2027-re tolná a szigorú MI-szabályozást az Európai Bizottság

Az Apple bemutatta MM1 multimodális AI modelljét

További cikkek

Új légszűrő forradalmasíthatja a szén-dioxid kivonását a légkörből

GPS-adatok segíthetnek felgyorsítani a városi közlekedést

Lemondott az Apple AI-vezetője

Új áttörés: kiderült, miért nem ismerik fel szeretteiket az Alzheimer-betegek

iPhone Air kamerateszt: meglepően szerény teljesítmény félmillió forintért

Bajban az OpenAI, új korszak kezdődhet az MI-piacon

Hogyan optimalizáld az otthoni hálózatod? Switch használata lépésről lépésre

Megérkezett a mentőűrhajó: végre biztonságban a Tienkung legénysége

Tömeges Facebook-lopások Magyarországon: ilyen üzenetre soha ne kattintson

Drágulnak az okostelefonok: az AI-boom felborította a memóriapiacot

Friss cikkek

3 perccel ezelőtt Jelentős növekedés a Fidesz táborában - zárkózik a kormánypárt

10 perccel ezelőtt Magyar Péter 70 milliárdos iskolakezdési támogatást ígér 700 ezer rászoruló családnak

27 perccel ezelőtt Trump új építészcéget választott a Fehér Ház gigantikus bálterméhez – tovább nő a projekt mérete

48 perccel ezelőtt Kiabálásig fajult a vita Hankó Balázs és egy diák között a BGE rendezvényén

1 órával ezelőtt Megszüntették a nyomozást a Balog Zoltánt érintő zsinati határozat ügyében

Népszerű cikkek

Új áttörés: kiderült, miért nem ismerik fel szeretteiket az Alzheimer-betegek

GPS-adatok segíthetnek felgyorsítani a városi közlekedést

Lemondott az Apple AI-vezetője

Új légszűrő forradalmasíthatja a szén-dioxid kivonását a légkörből

Budapest

Lesz-e idén fehér karácsony Budapesten? Így alakul az időjárás

Budapest ünnepi vására az európai ranglista élére került

Idén már fizetni kell a parkolásért a két ünnep között Budapesten

Karácsony: Budapestet nem lehet letérdepeltetni

Új rozsdaövezeteket és hét lakótelepet nyilvánított kiemelt beruházássá a kormány

Kapcsolódó cikkek

Lemondott az Apple AI-vezetője

Magyar szerint lebukott a Fidesz: mesterséges intelligencia gyártotta a bizonyítékokat

Bajban az OpenAI, új korszak kezdődhet az MI-piacon

Drágulnak az okostelefonok: az AI-boom felborította a memóriapiacot

2027-re tolná a szigorú MI-szabályozást az Európai Bizottság

3 perccel ezelőtt
Jelentős növekedés a Fidesz táborában - zárkózik a kormánypárt

10 perccel ezelőtt
Magyar Péter 70 milliárdos iskolakezdési támogatást ígér 700 ezer rászoruló családnak

27 perccel ezelőtt
Trump új építészcéget választott a Fehér Ház gigantikus bálterméhez – tovább nő a projekt mérete

48 perccel ezelőtt
Kiabálásig fajult a vita Hankó Balázs és egy diák között a BGE rendezvényén

1 órával ezelőtt
Megszüntették a nyomozást a Balog Zoltánt érintő zsinati határozat ügyében