NLTK dispone di moltissime funzionalità delle quali alcune mettono in campo capacità di analisi piuttosto evolute. In questo screencast parliamo della possibilità di analizzare automaticamente la struttura del testo scoprendo quale ruolo ha ogni singola parola all’interno della frase.
BigQuery permette di gestire la potenza dei Big Data con la semplicità del linguaggio SQL. Quest’ultimo per l’occasione è stato arricchito di caratteristiche come campi array e struct per una più completa definizione delle informazioni che permettono di gestire efficacemente ogni situazione.
BigQuery è lo strumento di analisi di Google che coniuga la complessità dei Big Data con la semplicità del linguaggio SQL. È integrato nella Google Cloud Platform e offre la possibilità di integrare in un unico Data Warehouse sorgenti dati diverse per creare un completo dataset.
L’ambiente NLTK offre una gamma completa di strumenti per l’analisi del linguaggio naturale. In questo screencast, incontriamo lo stemming, tecnica fondamentale per la semplificazione del testo, e ragioniamo sulle sue potenzialità soprattutto pensando ad una lingua complessa come l’Italiano.
Un’immagine dice molto più di mille parole: ecco perché in Data Science i grafici sono così importanti. Uno strumento votato all’interattività come KNIME non poteva non disporre di ottimi strumenti per una rapida creazione di grafici efficaci da introdurre nelle proprie analisi dati.
Knime dispone di una vasta gamma di nodi che possono costituire un ottimo flusso di preparazione di un dataset per future elaborazioni e apprendimento automatico. Incontriamo in questo screencast le operazioni di join, raggruppamento e manipolazione di stringhe
Analizzare dati richiede spesso la capacità di programmare in almeno un linguaggio e ciò può risultare ostico a professionisti senza le giuste conoscenze. Con KNIME scopriamo una soluzione importantissima che permette di analizzare Big Data e applicare Machine Learning senza una riga di codice
Il linguaggio naturale rappresenta il formato dati più diffuso in assoluto sebbene il più ostico da interpretare automaticamente. Esiste in Python NLTK, uno dei framework più usati al mondo in materia, che parte dalla manipolazione del testo fino a spingersi alle tecniche di Intelligenza Artificiale
I dati da analizzare hanno spesso molteplici dimensioni e rappresentarli su piani bidimensionali non sempre risulta comodo. I grafici 3D possono offrire ulteriori prospettive soprattutto con uno strumento potente come Matplotlib. Vediamolo insieme
Nel Machine Learning troviamo spesso grandi quantità di dati da trattare sia appartenenti al dataset sia prodotti dalle nostre elaborazioni. Tutto ciò può complicare la loro esplorazione ed analisi. Ecco una tecnica che può aiutarci ad affrontare queste situazioni: Principal Component Analysis o PCA