L’ambiente NLTK offre una gamma completa di strumenti per l’analisi del linguaggio naturale. In questo screencast, incontriamo lo stemming, tecnica fondamentale per la semplificazione del testo, e ragioniamo sulle sue potenzialità soprattutto pensando ad una lingua complessa come l’Italiano.
Ogni tipologia di grafico mette in risalto aspetti diversi di una distribuzione. Il violinplot che incontriamo in questo screencast è un chiaro indicatore di proprietà statistiche e densità di distribuzione. Grazie alla libreria Seaborn e alle funzionalità dei DataFrame Pandas potremo apprezzarlo
Il linguaggio naturale rappresenta il formato dati più diffuso in assoluto sebbene il più ostico da interpretare automaticamente. Esiste in Python NLTK, uno dei framework più usati al mondo in materia, che parte dalla manipolazione del testo fino a spingersi alle tecniche di Intelligenza Artificiale
In Pandas e NumPy è fondamentale incrociare molte fonti dati per svolgere analisi. Talvolta possono però apparire messaggi di errore non facilmente comprensibili senza la necessaria esperienza, ad esempio non impiegando un giusto operatore logico. Esploriamo la problematica per vederci chiaro
I dati da analizzare hanno spesso molteplici dimensioni e rappresentarli su piani bidimensionali non sempre risulta comodo. I grafici 3D possono offrire ulteriori prospettive soprattutto con uno strumento potente come Matplotlib. Vediamolo insieme
Streamlit permette di realizzare molto velocemente data app, ma la sua ricchezza di controlli utente permette di creare applicazioni in stile web di qualsiasi genere. In questo screencast mettiamo sotto la lente la sua gestione degli eventi e le possibilità di inserimento dati
Il linguaggio R spicca negli scenari attuali per ricchezza di funzionalità ed intuitività ma con la libreria dplyr fa un nuovo balzo in avanti sotto ogni aspetto. In questo screencast, vediamo le funzionalità di concatenazione di operazioni e sintesi di dati che essa offre
Uno degli aspetti più innovativi delle data app di Streamlit è la capacità di trasformare un’analisi di Data Science o Intelligenza Artificiale in un sito web interattivamente fruibile da qualsiasi utente. In questo screencast, vediamo l’impiego di controlli utente che completano questa missione
Data Science e Machine Learning richiedono spesso grandi capacità di elaborazione e spazio di archiviazione, non sempre facili da individuare nei propri PC. Per tale motivo, Google mette a disposizione Colab un ambiente di lavoro on line gratuito per elaborare in Cloud i propri programmi
Il linguaggio R ha una sintassi ispirata alla massima sinteticità e produttività ma alcuni strumenti lo rendono ancora più attraente. In questo screencast ne vediamo uno, la libreria dplyr, sperimentandone le funzioni di base su un dataset storico della Data Science