Dobri alati za mašinsko učenje. Vodič za početnike.

Mašinsko učenje jeste obuhvatna tema koja obuhvata mnogo aspekata: prikupljanje podataka, obrada podataka, izradu modela, testiranje i primena napravljenih modela.

Koji alati nam mogu biti od pomoći u tom procesu?

Programski jezici

Bilo koji programski jezik je dobar, ali ipak, najbolji je Pajton zbog jednostavnosti i prilagodljivosti, kao i pozamašnog broja biblioteka i programskih okvira. Na drugom mestu je R, ali mi se u članku fokusiramo na Pajtonove alate.

Struganje podataka

Ako nemate svoje podatke, isprobajte pretraživač slobodnih skupova podataka. Tu su i alati za struganje podataka sa interneta. Od stotine različitih izdvajamo dva: MechanicalSoup i Scrapy.

Sređivanje podataka

Kada prikupimo podatke, pristupamo sređivanju i čišćenju kako bi uklonili nedoslednosti, greške i nedorečenosti . Prvi korak u tome je da koristimo alata za obradu i analizu. Jedan od najpoznatijih je Pandas za manipulaciju, grupisanje, sortiranje i transformisanje podataka. Oni se na ovaj način pretvaraju u tabele sa redovima i kolonama. Drugi dobar alat je OpenRefine, koji više funkcioniše kao baza podataka.

Viuzelizacija

Vizuelnom analizom da otkrivamo anomalije, zavisnosti i strukturu podataka. Neki od alata koji služe za to su: PowerBI, Google Data Studio, Matplotlib i Tableau.

Jupyter Notebook: interaktivno modeliranje

Jedni smatraju da je odličan, dok drugi tvrde je previše jednostavan. Služi za brzu analizu, modeliranje i vizuelizaciju. Podržava preko 40 različitih jezika. Podržava ga i Kaggle, zajednica ljudi koje zanima nauka o podacima. Tamo ćete naći skupove podataka, gotove modele za vežbu i primere koda za rešavanje problema.

Biblioteke i programski okviri

Od biblioteka i programskih okvira izdvajamo:

NumPy – podržava kalkulacije sa višedimenzionalnim nizovima i matricama.

Scikit-learn – biblioteka sa velikim brojem algoritama za klasifikaciju i sortiranje podataka. Posebno je pogodna za prediktivnu analizu,

Pytorch i Tensorflow sadrže biblioteke za prepoznavanje lica, obradu jezika, klastering i neuronske mreže.

Treba da napomenemo i MLflow, platformu otvorenog koda, gde možete da čuvate i izvršavate modele, vršite eksperimente i analizirate podatke.

OpanAIGym – OpenAI je inicijativa koju podržavaju Majkrosoft i Ilon Mask, a čiji cilj je pomoć razvoju veštačke inteligencija zarad dobrobiti čovečansta. Deo te inicijative je i OpenAI teretana, jednostavna grupa alata za razvoj algoritama učenja. Programeri se kroz igru upoznaju sa algoritmima dubokog učenja.

Shogun – Biblioteka otvorenog koda za razvoj algoritama veštačke inteligencije.