Dobri alati za mašinsko učenje. Vodič za početnike.

Mašinsko učenje jeste obuhvatna tema koja obuhvata mnogo aspekata: prikupljanje podataka, obrada podataka, izradu modela, testiranje i primena napravljenih modela.

Koji alati nam mogu biti od pomoći u tom procesu?

Programski jezici

Bilo koji programski jezik je dobar, ali ipak, najbolji je Pajton zbog jednostavnosti i prilagodljivosti, kao i pozamašnog broja biblioteka i programskih okvira. Na drugom mestu je R, ali mi se u članku fokusiramo na Pajtonove alate.

Struganje podataka

Ako nemate svoje podatke, isprobajte pretraživač slobodnih skupova podataka. Tu su i alati za struganje podataka sa interneta. Od stotine različitih izdvajamo dva: MechanicalSoup i Scrapy.

Sređivanje podataka

Kada prikupimo podatke, pristupamo sređivanju i čišćenju kako bi uklonili nedoslednosti, greške i nedorečenosti . Prvi korak u tome je da koristimo alata za obradu i analizu. Jedan od najpoznatijih je Pandas za manipulaciju, grupisanje, sortiranje i transformisanje podataka. Oni se na ovaj način pretvaraju u tabele sa redovima i kolonama. Drugi dobar alat je OpenRefine, koji više funkcioniše kao baza podataka.

Viuzelizacija

Vizuelnom analizom da otkrivamo anomalije, zavisnosti i strukturu podataka. Neki od alata koji služe za to su: PowerBI, Google Data Studio, Matplotlib i Tableau.

Jupyter Notebook: interaktivno modeliranje

Jedni smatraju da je odličan, dok drugi tvrde je previše jednostavan. Služi za brzu analizu, modeliranje i vizuelizaciju. Podržava preko 40 različitih jezika. Podržava ga i Kaggle, zajednica ljudi koje zanima nauka o podacima. Tamo ćete naći skupove podataka, gotove modele za vežbu i primere koda za rešavanje problema.

Biblioteke i programski okviri

Od biblioteka i programskih okvira izdvajamo:

NumPy – podržava kalkulacije sa višedimenzionalnim nizovima i matricama.

Scikit-learn – biblioteka sa velikim brojem algoritama za klasifikaciju i sortiranje podataka. Posebno je pogodna za prediktivnu analizu,

Pytorch i Tensorflow sadrže biblioteke za prepoznavanje lica, obradu jezika, klastering i neuronske mreže.

Treba da napomenemo i MLflow, platformu otvorenog koda, gde možete da čuvate i izvršavate modele, vršite eksperimente i analizirate podatke.

OpanAIGym – OpenAI je inicijativa koju podržavaju Majkrosoft i Ilon Mask, a čiji cilj je pomoć razvoju veštačke inteligencija zarad dobrobiti čovečansta. Deo te inicijative je i OpenAI teretana, jednostavna grupa alata za razvoj algoritama učenja. Programeri se kroz igru upoznaju sa algoritmima dubokog učenja.

Shogun – Biblioteka otvorenog koda za razvoj algoritama veštačke inteligencije.

Pogledaj još

SQL funkcije za rad sa stringovima

SQL sadrži nekoliko ugrađenih funkcija za rad sa tekstom. Upoznaćemo vas sa nekima od njih. …