Mašinsko učenje jeste obuhvatna tema koja obuhvata mnogo aspekata: prikupljanje podataka, obrada podataka, izradu modela, testiranje i primena napravljenih modela.
Koji alati nam mogu biti od pomoći u tom procesu?
Programski jezici
Bilo koji programski jezik je dobar, ali ipak, najbolji je Pajton zbog jednostavnosti i prilagodljivosti, kao i pozamašnog broja biblioteka i programskih okvira. Na drugom mestu je R, ali mi se u članku fokusiramo na Pajtonove alate.
Struganje podataka
Ako nemate svoje podatke, isprobajte pretraživač slobodnih skupova podataka. Tu su i alati za struganje podataka sa interneta. Od stotine različitih izdvajamo dva: MechanicalSoup i Scrapy.
Sređivanje podataka
Kada prikupimo podatke, pristupamo sređivanju i čišćenju kako bi uklonili nedoslednosti, greške i nedorečenosti . Prvi korak u tome je da koristimo alata za obradu i analizu. Jedan od najpoznatijih je Pandas za manipulaciju, grupisanje, sortiranje i transformisanje podataka. Oni se na ovaj način pretvaraju u tabele sa redovima i kolonama. Drugi dobar alat je OpenRefine, koji više funkcioniše kao baza podataka.
Viuzelizacija
Vizuelnom analizom da otkrivamo anomalije, zavisnosti i strukturu podataka. Neki od alata koji služe za to su: PowerBI, Google Data Studio, Matplotlib i Tableau.
Jupyter Notebook: interaktivno modeliranje
Jedni smatraju da je odličan, dok drugi tvrde je previše jednostavan. Služi za brzu analizu, modeliranje i vizuelizaciju. Podržava preko 40 različitih jezika. Podržava ga i Kaggle, zajednica ljudi koje zanima nauka o podacima. Tamo ćete naći skupove podataka, gotove modele za vežbu i primere koda za rešavanje problema.
Biblioteke i programski okviri
Od biblioteka i programskih okvira izdvajamo:
NumPy – podržava kalkulacije sa višedimenzionalnim nizovima i matricama.
Scikit-learn – biblioteka sa velikim brojem algoritama za klasifikaciju i sortiranje podataka. Posebno je pogodna za prediktivnu analizu,
Pytorch i Tensorflow sadrže biblioteke za prepoznavanje lica, obradu jezika, klastering i neuronske mreže.
Treba da napomenemo i MLflow, platformu otvorenog koda, gde možete da čuvate i izvršavate modele, vršite eksperimente i analizirate podatke.
OpanAIGym – OpenAI je inicijativa koju podržavaju Majkrosoft i Ilon Mask, a čiji cilj je pomoć razvoju veštačke inteligencija zarad dobrobiti čovečansta. Deo te inicijative je i OpenAI teretana, jednostavna grupa alata za razvoj algoritama učenja. Programeri se kroz igru upoznaju sa algoritmima dubokog učenja.
Shogun – Biblioteka otvorenog koda za razvoj algoritama veštačke inteligencije.