Python Pandas questo sconosciuto

Dopo aver parlato di Numpy non potevamo non parlare di Pandas.

Infatti queste due librerie sono alla base dell'analisi dati con Python.

Pandas è una libreria Python che fornisce strutture dati veloci, flessibili ed espressive progettate per rendere facile e intuitivo lavorare con dati "relazionali" o "etichettati". Mira a essere l'elemento fondamentale di alto livello per eseguire analisi pratiche dei dati del mondo reale in Python. 

Inoltre, ha l'obiettivo più ampio di diventare lo strumento di analisi/manipolazione dei dati open source più potente e flessibile disponibile in qualsiasi lingua . È già sulla buona strada verso questo obiettivo. 

panda è adatto per molti diversi tipi di dati:

  • Dati tabulari con colonne di tipo eterogeneo, come in una tabella SQL o in un foglio di calcolo Excel
  • Dati di serie temporali ordinati e non ordinati (non necessariamente a frequenza fissa).
  • Dati a matrice arbitraria (tipizzati omogenei o eterogenei) con etichette di riga e colonna
  • Qualsiasi altra forma di set di dati osservazionali/statistici. I dati non devono essere affatto etichettati per essere inseriti in una struttura dati panda
Le due strutture dati primarie dei panda, Series(1-dimensionale) e DataFrame(2-dimensionale), gestiscono la stragrande maggioranza dei casi d'uso tipici in finanza, statistica, scienze sociali e molte aree dell'ingegneria. Per gli utenti DataFrame di R, fornisce tutto ciò che offre R data.frame e molto altro. Pandas è basato su NumPy ed è pensato per integrarsi bene all'interno di un ambiente di elaborazione scientifica con molte altre librerie di terze parti.

Ecco alcune delle cose che panda fa bene:
  • Facile gestione dei dati mancanti (rappresentati come NaN) in virgola mobile e dati in virgola non mobile
  • Mutabilità dimensionale : è possibile inserire ed eliminare colonne da DataFrame e oggetti di dimensioni superiori
  • Allineamento automatico ed esplicito dei dati : gli oggetti possono essere allineati in modo esplicito a un set di etichette, oppure l'utente può semplicemente ignorare le etichette e lasciare che Series, DataFrame, ecc. allineino automaticamente i dati per te nei calcoli
  • Funzionalità potente e flessibile raggruppa in base a per eseguire operazioni di suddivisione, applicazione e combinazione su set di dati, sia per l'aggregazione che per la trasformazione dei dati
  • Semplifica la conversione di dati irregolari e indicizzati in modo diverso in altre strutture di dati Python e NumPy in oggetti DataFrame
  • Slicing intelligente basato su etichette , indicizzazione fantasiosa e subsetting di grandi set di dati
  • Unione intuitiva e unione di set di dati
  • Rimodellamento flessibile e rotazione dei set di dati
  • Etichettatura gerarchica degli assi (possibile avere più etichette per tick)
  • Robusti strumenti IO per caricare dati da file flat (CSV e delimitati), file Excel, database e salvare/caricare dati dal formato ultraveloce HDF5
  • Funzionalità specifiche per serie temporali : generazione dell'intervallo di date e conversione di frequenza, spostamento delle statistiche della finestra, spostamento della data e ritardo.
Molti di questi principi sono qui per affrontare le carenze spesso riscontrate nell'uso di altre lingue/ambienti di ricerca scientifica. Per i data scientist, lavorare con i dati è in genere suddiviso in più fasi: estrarre e pulire i dati, analizzarli/modellarli, quindi organizzare i risultati dell'analisi in una forma adatta per la stampa o la visualizzazione tabellare. panda è lo strumento ideale per tutte queste attività.

  • I dataframe panda sono veloci . Molti dei bit algoritmici di basso livello sono stati ampiamente modificati nel codice Cython . Tuttavia, come per qualsiasi altra cosa, la generalizzazione di solito sacrifica le prestazioni. Quindi, se ti concentri su una funzionalità per la tua applicazione, potresti essere in grado di creare uno strumento specializzato più veloce.
  • pandas è una dipendenza di statsmodels , il che lo rende una parte importante dell'ecosistema di calcolo statistico in Python.
  • panda è stato ampiamente utilizzato nella produzione in applicazioni finanziarie.

Commenti

Post popolari in questo blog

[JavaScript] Come invitare tutti gli amici di Facebook ad un gruppo o ad un evento

Pasta e ceci secondo me