I framework per Big Data, come Apache Spark, hanno la prerogativa di poter lavorare su cluster. In quest’ottica, la possibilità di partizionare i dati può essere davvero utile al fine di migliorare le prestazioni. Cerchiamo di capirne finalità ed impiego con PySpark
In un mondo sempre più connesso, i dati accumulati crescono e con loro la necessità di elaborarli. Le data pipeline sono processi articolati in più task in cui i dati passano per varie fasi e vengono trattati. Ecco una libreria Python fondamentale nel settore: Luigi di Spotify
Con BigQuery associamo la complessità di Big Data con la semplicità di SQL. Possiamo costruire strutture dati articolate fondendo struct e array per poter rendere al meglio strutture di informazioni. Vediamo in questo screencast come esistano strumenti per poterle navigare ed esplorarne i valori.
BigQuery permette di gestire la potenza dei Big Data con la semplicità del linguaggio SQL. Quest’ultimo per l’occasione è stato arricchito di caratteristiche come campi array e struct per una più completa definizione delle informazioni che permettono di gestire efficacemente ogni situazione.
Google Data Studio è uno strumento che offre data visualization di altissimo livello in maniera estremamente facile. Grazie a numerosi connector può essere sfruttato partendo da dataset disponibili su Cloud, database, Google Sheets e tantissime altre fonti. Creiamo insieme il nostro primo report!
BigQuery è lo strumento di analisi di Google che coniuga la complessità dei Big Data con la semplicità del linguaggio SQL. È integrato nella Google Cloud Platform e offre la possibilità di integrare in un unico Data Warehouse sorgenti dati diverse per creare un completo dataset.
Analizzare dati richiede spesso la capacità di programmare in almeno un linguaggio e ciò può risultare ostico a professionisti senza le giuste conoscenze. Con KNIME scopriamo una soluzione importantissima che permette di analizzare Big Data e applicare Machine Learning senza una riga di codice
Studiare Big Data è ormai alla portata di tutti con ciò che Apache Spark ed il mondo Python offrono, ma lo si può rendere ancora più comodo sfruttando Google Colab, completo ambiente in Cloud. Vediamo in questo screencast alcune sue caratteristiche utili in generale, ma focalizzandoci su Pyspark
Il linguaggio R è una risorsa storica dell’Informatica. Nato nei primi ’90 come piattaforma gratuita per la Statistica si è arricchito di funzionalità di ogni genere ed oggi la sua capacità di rapportarsi con Big Data e Machine Learning l’ha reso uno dei linguaggi in maggiore crescita al mondo
Si parla molto di Machine Learning al giorno d’oggi. E’ una branca dell’Intelligenza Artificiale che esiste da molto tempo, ma che le condizioni tecnologiche di questo periodo hanno reso particolarmente attraente. E’ qualcosa di interessante e in grado offrire molti posti di lavoro