Tartalomjegyzék
- Mélytanulási projektötletek
- Deep Learning projektötletek: Kezdő szint
- Image Classification with CIFAR-10 dataset
- Vizuális nyomkövető rendszer
- Az arcfelismerő rendszer
- Mélytanulási projektötletek: Középszintű
- Számjegyfelismerő rendszer
- Chatbot
- Zenei műfaji osztályozó rendszer
- Az álmosságot érzékelő rendszer
- Image caption generator
- A régi B&W fotók színezése
- Mélytanulási projektötletek – haladó szint
- Detectron
- WaveGlow
- OpenCog
- DeepMimic
- IBM Watson
- Google Brain
- 12 Sigma’s Lung Cancer detection algorithm
- Következtetés
Mélytanulási projektötletek
Bár egy új technológiai fejlesztés, a Deep Learning hatóköre exponenciálisan bővül. A Deep Learning technológia célja a biológiai neurális hálózat, azaz az emberi agy utánzása. Bár a Deep Learning eredete az 1950-es évekre nyúlik vissza, csak a mesterséges intelligencia és a gépi tanulás fejlődésével és elfogadásával került reflektorfénybe. Tehát, ha Ön ML-kezdő, a legjobb, amit tehet, hogy néhány Deep learning projektötleten dolgozik.
Mi, itt az upGradnál, a gyakorlati megközelítésben hiszünk, mivel az elméleti tudás önmagában nem lesz segítség egy valós idejű munkakörnyezetben. Ebben a cikkben néhány érdekes mélytanulási projektötletet fogunk feltárni, amelyeken a kezdők dolgozhatnak, hogy tudásukat próbára tegyék. Ebben a cikkben megtalálod a legjobb mélytanulási projektötleteket kezdőknek, hogy gyakorlati tapasztalatokat szerezzenek a mélytanulásról.
A gépi tanulás egy részhalmaza, a mélytanulás hierarchikusan elrendezett mesterséges neurális hálózatokat használ fel speciális ML feladatok elvégzésére. A Deep Learning hálózatok a felügyelet nélküli tanulási megközelítést alkalmazzák – strukturálatlan vagy címkézetlen adatokból tanulnak. A mesterséges neurális hálózatok olyanok, mint az emberi agy, a neuroncsomópontok egymással összekapcsolódva hálószerű struktúrát alkotnak.
Míg a hagyományos tanulási modellek lineáris megközelítéssel elemzik az adatokat, a Deep Learning rendszerek hierarchikus működését úgy tervezték, hogy az adatokat nemlineáris megközelítésben dolgozzák fel és elemezzék.
A Deep Learning architektúrák, mint a mély neurális hálózatok, a rekurrens neurális hálózatok és a mély hiedelemhálózatok számos területen találtak alkalmazást, például a természetes nyelvfeldolgozás, a számítógépes látás, a bioinformatika, a beszéd- és hangfelismerés, a gépi fordítás, a közösségi hálózatok szűrése, a gyógyszertervezés vagy akár a társasjátékprogramok területén. Mivel ezen a területen új előrelépések történnek, ez segíti az ML és a Deep Learning szakértőit az innovatív és funkcionális Deep Learning projektek tervezésében. Minél több Deep Learning projektötletet próbálsz ki, annál több tapasztalatot szerzel.
Most a hét legjobb elképesztő Deep Learning projektet fogjuk megvitatni, amelyek segítségével új magasságokba juthatunk.
Íme tehát néhány Deep Learning projektötlet, amelyeken a kezdők is dolgozhatnak:
Deep Learning projektötletek: Kezdő szint
Ez a lista a tanulóknak szóló mélytanulási projektötletekről a kezdők számára alkalmas, és azok számára, akik csak most kezdenek el foglalkozni az ML-vel általában. Ezek a mélytanulási projektötletek minden olyan gyakorlatias dologgal el fognak indítani, amire szükséged van a sikeres pályafutásodhoz.
Még akkor is, ha mélytanulási projektötleteket keresel az utolsó évfolyamra, ez a lista kell, hogy elindítson téged. Tehát minden további nélkül ugorjunk egyenesen néhány mélytanulási projektötletbe, amelyek megerősítik a bázisodat, és lehetővé teszik, hogy feljebb mássz a ranglétrán.
Image Classification with CIFAR-10 dataset
Az egyik legjobb ötlet, hogy elkezdj kísérletezni a gyakorlatias mélytanulási projektekkel a diákok számára, az a képosztályozással való munka. A CIFAR-10 egy nagy adathalmaz, amely több mint 60 000 (32×32 méretű) színes képet tartalmaz tíz osztályba sorolva, ahol minden osztály 6000 képet tartalmaz. A gyakorlóhalmaz 50 000 képet, míg a teszthalmaz 10 000 képet tartalmaz. A gyakorlóhalmazt öt különálló részre osztjuk, amelyek mindegyike 10 000 képet tartalmaz, véletlenszerűen elrendezve. Ami a tesztkészletet illeti, az 1000 képet tartalmaz, amelyek mind a tíz osztályból véletlenszerűen kerülnek kiválasztásra.
Ezzel a projekttel egy olyan képosztályozó rendszert fogsz kifejleszteni, amely képes azonosítani egy bemeneti kép osztályát. A képosztályozás kulcsfontosságú alkalmazás a mélytanulás területén, ezért a projekten való munka során különböző mélytanulási koncepciókról szerezhetsz ismereteket.
Vizuális nyomkövető rendszer
A vizuális nyomkövető rendszer célja, hogy egy kamera segítségével egy adott időkeretben mozgó objektum(ok)at kövessen és lokalizáljon. Ez egy praktikus eszköz, amelynek számos alkalmazása van, például a biztonság és a megfigyelés, az orvosi képalkotás, a kiterjesztett valóság, a forgalomirányítás, a videószerkesztés és kommunikáció, valamint az ember-számítógép interakció területén.
Ez a rendszer egy mélytanulási algoritmust használ a szekvenciális videóképek elemzéséhez, majd a képkockák között követi a célobjektumok mozgását. Ennek a vizuális nyomkövető rendszernek a két központi eleme:
- Célpont reprezentáció és lokalizáció
- Szűrés és adattársítás
Az arcfelismerő rendszer
Ez az egyik kiváló deep learning projektötlet kezdőknek. A mélytanulás fejlődésével az arcfelismerési technológia is hatalmasat fejlődött. Az arcfelismerési technológia az objektumfelismerés egy alcsoportja, amely a szemantikus objektumok példányának megfigyelésére összpontosít. Az emberi arcok digitális képeken belüli követésére és megjelenítésére szolgál.
Ebben a mélytanulási projektben megtanulhatja, hogyan végezzen emberi arcfelismerést valós időben. A modellt Pythonban és OpenCV-ben kell kifejlesztened.
Mélytanulási projektötletek: Középszintű
Számjegyfelismerő rendszer
Amint a neve is mutatja, ebben a projektben egy olyan számjegyfelismerő rendszert kell kifejleszteni, amely képes a számjegyeket a beállított tenzimek alapján osztályozni. Itt az MNIST adathalmazt fogod használni, amely képeket tartalmaz (28 X 28 méretű).
Ez a projekt célja egy olyan felismerő rendszer létrehozása, amely a 0-tól 9-ig terjedő számjegyeket képes osztályozni sekély és mély neurális hálózat kombinációjának felhasználásával, valamint logisztikus regresszió megvalósításával. A Softmax regresszió vagy a multinomiális logisztikus regresszió ideális választás ehhez a projekthez. Mivel ez a technika a logisztikus regresszió általánosítása, alkalmas többosztályos osztályozásra, feltételezve, hogy az összes osztály kölcsönösen kizárja egymást).
Chatbot
Ebben a projektben egy chatbotot fog modellezni az IBM Watson API segítségével. Watson a legjobb példa arra, hogy a mesterséges intelligencia mire képes. A projekt lényege, hogy Watson mélytanulási képességeit kihasználva egy olyan chatbotot hozzunk létre, amely ugyanúgy képes kommunikálni az emberekkel, mint egy másik ember. A chatbotok rendkívül intelligensek, és képesek valós időben válaszolni az emberi kérdésekre vagy kérésekre. Ez az oka annak, hogy minden területen egyre több vállalat alkalmazza a chatbotokat ügyfélszolgálati infrastruktúrájában.
Ez a projekt nem jelent nagy kihívást. Mindössze Python 2/3-ra van szükséged a gépeden, egy Bluemix-fiókra, és persze aktív internetkapcsolatra! Ha szeretnéd egy fokkal nagyobbra méretezni, akkor látogass el a Github tárolóba, és fejleszd a chatbot funkcióit egy animált autós műszerfal beépítésével.
Olvasd: Hogyan készítsünk chatbotot Pythonban?
Zenei műfaji osztályozó rendszer
Ez az egyik érdekes mélytanulási projektötlet. Ez egy kiváló projekt a mélytanulási készségek ápolására és fejlesztésére. Egy olyan mélytanulási modellt fogsz létrehozni, amely neurális hálózatokat használ a zene műfajának automatikus osztályozására. Ehhez a projekthez egy FMA (Free Music Archive) adathalmazt fogsz használni. Az FMA egy interaktív könyvtár, amely kiváló minőségű és legális audio letöltéseket tartalmaz. Ez egy nyílt forráskódú és könnyen hozzáférhető adathalmaz, amely számos MIR feladatra kiválóan alkalmas, beleértve a hatalmas zenei gyűjtemények böngészését és rendszerezését.
Ne feledje azonban, hogy mielőtt a modellt a hangfájlok műfaj szerinti osztályozására használhatná, ki kell vonnia a releváns információkat a hangmintákból (például spektrogramokat, MFCC-t stb.).
Az álmosságot érzékelő rendszer
A járművezetők álmossága az egyik fő oka a közúti baleseteknek. Természetes, hogy a hosszú útvonalakat gyakran bejáró járművezetők elszundítanak, amikor a kormánykerék mögé ülnek. Még a stressz és az alváshiány is okozhat álmosságot a járművezetőknél vezetés közben. A projekt célja az ilyen balesetek megelőzése és csökkentése az álmosságot érzékelő szer létrehozásával.
Itt Python, OpenCV és Keras segítségével egy olyan rendszert fogsz létrehozni, amely képes érzékelni a járművezetők csukott szemét, és figyelmeztetni őket, ha valaha is elalszanak vezetés közben. Még ha a sofőr szeme csak néhány másodpercre is csukva van, ez a rendszer azonnal értesíti a sofőrt, ezzel megelőzve a szörnyű közúti baleseteket. Az OpenCV figyeli és gyűjti a sofőr képeit egy webkamerán keresztül, és betáplálja azokat a mélytanulási modellbe, amely a sofőr szemét “nyitottnak” vagy “csukottnak” minősíti.”
Image caption generator
Ez az egyik trendi mélytanulási projektötlet. Ez egy Python-alapú mélytanulási projekt, amely a konvolúciós neurális hálózatokat és az LTSM-et (a rekurrens neurális hálózatok egy típusa) kihasználva olyan mélytanulási modellt hoz létre, amely képes képfeliratokat generálni egy képhez.
A képfelirat-generátor egyesíti a számítógépes látást és a természetes nyelvi feldolgozási technikákat, hogy elemezze és azonosítsa egy kép kontextusát, és ennek megfelelően természetes emberi nyelveken (például angolul, spanyolul, dánul stb.) írja le azokat. Ez a projekt megerősíti a CNN-ről és az LSTM-ről szerzett ismereteidet, és megtanulod, hogyan lehet ezeket valós alkalmazásokban megvalósítani, mint ez.
A régi B&W fotók színezése
A B&W képek automatizált képszínezése már régóta a számítógépes látás és a mélytanulás egyik forró kutatási témája. Egy nemrégiben készült tanulmány szerint, ha egy neurális hálózatot egy terjedelmes és gazdag adathalmaz segítségével betanítunk, akkor létrehozhatunk egy olyan mélytanulási modellt, amely képes színeket hallucinálni egy fekete-fehér fényképen belül.
Ebben a képszínezési projektben Python és OpenCV DNN architektúrát fog használni (az ImageNet adathalmazon van betanítva). A cél a szürkeárnyalatos képek színes reprodukciójának létrehozása. Ehhez egy előre betanított Caffe modellt, egy prototxt fájlt és egy NumPy fájlt fogsz használni.
Mélytanulási projektötletek – haladó szint
Detectron
A Detectron a Facebook AI Research (FAIR) szoftverrendszere, amelyet a legkorszerűbb objektumdetektáló algoritmusok végrehajtására és futtatására terveztek. Ez a Python nyelven írt Deep Learning projekt a Caffe2 mélytanulási keretrendszeren alapul.
A Detectron számos csodálatos kutatási projekt alapjául szolgált, többek között a Feature Pyramid Networks for Object Detection; Mask R-CNN; Detecting and Recognizing Human-Object Interactions; Focal Loss for Dense Object Detection; Non-local Neural Networks, and Learning to Segment Every Thing, hogy csak néhányat említsünk.
A Detectron kiváló minőségű és nagy teljesítményű kódbázist kínál a tárgyfelismerési kutatáshoz. Több mint 50 előre betanított modellt tartalmaz, és rendkívül rugalmas – támogatja az újszerű kutatások gyors megvalósítását és értékelését.
WaveGlow
Ez az egyik érdekes deep learning projektötlet. A WaveGlow egy áramlásalapú generatív hálózat beszédszintézishez, amelyet az NVIDIA fejlesztett ki és kínál. Mel-spektogramokból képes jó minőségű beszédet generálni. A WaveNet és a Glow által nyert meglátásokat ötvözi a gyors, hatékony és kiváló minőségű hangszintézis megkönnyítése érdekében, anélkül, hogy automatikus regresszióra lenne szükség.
A WaveGlow egyetlen hálózaton keresztül valósítható meg, és egyetlen költségfüggvény segítségével is betanítható. A cél a képzési adatok valószínűségének optimalizálása, ezáltal a képzési eljárás kezelhetővé és stabillá válik.
OpenCog
Az OpenCog projekt tartalmazza az AI R&D megkönnyítésére szolgáló alapvető komponenseket és egy platformot. Célja egy olyan nyílt forráskódú mesterséges általános intelligencia (AGI) keretrendszer megtervezése, amely képes pontosan megragadni az emberi agy felépítésének és dinamikájának szellemét. Az AI robot, Sophia az AGI egyik legszebb példája.
Az OpenCog magában foglalja az OpenCog Prime-ot is – a robotok és a virtuális megtestesült megismerés fejlett architektúráját, amely interaktív komponensek választékát tartalmazza, hogy az emberrel egyenértékű mesterséges általános intelligencia (AGI) a rendszer egészének emergens jelenségeként szülessen meg.
DeepMimic
ADeepMimic egy “példa vezérelt Deep Reinforcement Learning of Physics-based character skills”. Más szóval, ez egy neurális hálózat, amelyet a megerősítéses tanulás kihasználásával képeztek ki, hogy egy szimulált humanoid, vagy bármilyen más fizikai ágens segítségével reprodukálja a mozgással rögzített mozdulatokat.
A DeepMimic működése meglehetősen egyszerű. Először is létre kell hoznod annak a dolognak a szimulációját, amit animálni szeretnél (rögzíthetsz valakit, aki meghatározott mozdulatokat végez, és megpróbálhatod azt utánozni). Most a mozgásrögzítési adatokból megerősítéses tanulással betanítasz egy neurális hálózatot. A bemenet itt a karok és lábak konfigurációja különböző időpontokban, míg a jutalom a valós dolog és a szimuláció közötti különbség bizonyos időpontokban.
IBM Watson
A gépi tanulás és a mélytanulás egyik legkiválóbb példája az IBM Watson. Az IBM Watson legnagyobb előnye, hogy lehetővé teszi az adattudósok és az ML mérnökök/fejlesztők számára, hogy egy integrált platformon együttműködjenek az AI életciklusának javítása és automatizálása érdekében. A Watson képes leegyszerűsíteni, felgyorsítani és kezelni az AI telepítéseket, ezáltal lehetővé teszi a vállalatok számára, hogy mind az ML-ben, mind a Deep Learningben rejlő lehetőségeket kihasználják az üzleti érték növelése érdekében.
Az IBM Watson a Watson Studióval integrálva lehetővé teszi a keresztfunkcionális csapatok számára az ML/Deep Learning modellek gyors és hatékony telepítését, felügyeletét és optimalizálását. Automatikusan képes API-kat generálni, hogy a fejlesztők könnyedén beépíthessék a mesterséges intelligenciát az alkalmazásaikba. Ráadásul intuitív műszerfalakkal rendelkezik, amelyek kényelmessé teszik a csapatok számára a termelésben lévő modellek zökkenőmentes kezelését.
Google Brain
Ez az egyik kiváló mélytanulási projektötlet. A Google Brain projekt a Deep Learning AI kutatás, amely 2011-ben kezdődött a Google-nál. A Jeff Dean, a Google munkatársa, Greg Corrado, a Google kutatója és Andrew Ng, a Stanford Egyetem professzora által vezetett Google Brain csapat célja az volt, hogy a mélytanulást és a gépi tanulást a laboratóriumi keretekből a való világba vigye. Megtervezték az ML egyik legnagyobb neurális hálózatát – ez 16 000 számítógépes processzor összekapcsolásából állt.
Az ilyen hatalmas méretű neurális hálózat képességeinek tesztelésére a Google Brain csapata 10 millió YouTube-videóból származó macskaképek véletlenszerű miniatűrjeivel táplálta a hálózatot. A bökkenő azonban az, hogy nem arra képezték a rendszert, hogy felismerje, hogyan néz ki egy macska. Az intelligens rendszer azonban mindenkit ámulatba ejtett – megtanította magát, hogyan ismerje fel a macskákat, és továbbhaladva a macska jellemzőit összeállította egy macska képét!
A Google Brain projekt sikeresen bebizonyította, hogy a szoftveralapú neurális hálózatok képesek utánozni az emberi agy működését, ahol az egyes neuronokat bizonyos tárgyak észlelésére képezték ki. How Deep Learning Algorithms are Transforming our Everyday Lives
12 Sigma’s Lung Cancer detection algorithm
12 Sigma kifejlesztett egy AI algoritmust, amely képes csökkenteni a tüdőrákkal kapcsolatos diagnosztikai hibákat a korai stádiumban, és sokkal gyorsabban felismeri a tüdőrák jeleit, mint a hagyományos megközelítések.
Xin Zhong, a Sigma Technologies társalapítója és vezérigazgatója szerint általában a hagyományos rákfelismerő eljárásoknak időbe telik a tüdőrák felismerése. A 12 Sigma AI algoritmusos rendszere azonban csökkentheti a diagnosztizálási időt, ami a tüdőrákos betegek jobb túlélési arányát eredményezi.
Az orvosok általában úgy diagnosztizálják a tüdőrákot, hogy alaposan megvizsgálják a CT-felvételeket, hogy kisméretű csomókat keressenek, és azokat jó- vagy rosszindulatúnak minősítsék. Több mint tíz percig is eltarthat, amíg az orvosok vizuálisan megvizsgálják a beteg CT-felvételeit csomók után kutatva, plusz további időt vesz igénybe a csomók jó- vagy rosszindulatúvá minősítése.
Mondani sem kell, hogy mindig nagy az emberi hibák lehetősége. A 12 Sigma azt állítja, hogy AI-algoritmusa két percen belül képes megvizsgálni a CT-képeket és osztályozni a csomókat.
Következtetés
Ebben a cikkben a legjobb mélytanulási projektötletekkel foglalkoztunk. Néhány kezdő projekttel kezdtük, amelyeket könnyedén megoldhat. Miután befejezte ezeket az egyszerű projekteket, azt javaslom, hogy térjen vissza, tanuljon meg még néhány fogalmat, majd próbálja ki a középhaladó projekteket. Ha magabiztosnak érzi magát, akkor nekiláthat a haladó projekteknek. Ha szeretné fejleszteni a mélytanulási készségeit, meg kell szereznie ezeket a mélytanulási projektötleteket.
Ez csak egy maroknyi a mélytanulás eddig készült valós alkalmazásai közül. A technológia még mindig nagyon fiatal – éppen most is fejlődik. A mélytanulás hatalmas lehetőségeket rejt magában, hogy olyan úttörő innovációkat szülessenek, amelyek segíthetnek az emberiségnek a való világ néhány alapvető kihívásának megoldásában.
Ha többet szeretne megtudni a mélytanulásról és a mesterséges intelligenciáról, nézze meg a PG Diploma in Machine Learning and AI programunkat, amelyet dolgozó szakemberek számára fejlesztettünk ki, és több mint 450 órás szigorú képzésben vesz részt.