Python Pandas questo sconosciuto

Dopo aver parlato di Numpy non potevamo non parlare di Pandas.

Infatti queste due librerie sono alla base dell'analisi dati con Python.

Pandas è una libreria Python che fornisce strutture dati veloci, flessibili ed espressive progettate per rendere facile e intuitivo lavorare con dati "relazionali" o "etichettati". Mira a essere l'elemento fondamentale di alto livello per eseguire analisi pratiche dei dati del mondo reale in Python.

Inoltre, ha l'obiettivo più ampio di diventare lo strumento di analisi/manipolazione dei dati open source più potente e flessibile disponibile in qualsiasi lingua . È già sulla buona strada verso questo obiettivo.

panda è adatto per molti diversi tipi di dati:

Dati tabulari con colonne di tipo eterogeneo, come in una tabella SQL o in un foglio di calcolo Excel
Dati di serie temporali ordinati e non ordinati (non necessariamente a frequenza fissa).
Dati a matrice arbitraria (tipizzati omogenei o eterogenei) con etichette di riga e colonna
Qualsiasi altra forma di set di dati osservazionali/statistici. I dati non devono essere affatto etichettati per essere inseriti in una struttura dati panda

Le due strutture dati primarie dei panda, Series(1-dimensionale) e DataFrame(2-dimensionale), gestiscono la stragrande maggioranza dei casi d'uso tipici in finanza, statistica, scienze sociali e molte aree dell'ingegneria. Per gli utenti DataFrame di R, fornisce tutto ciò che offre R data.frame e molto altro. Pandas è basato su NumPy ed è pensato per integrarsi bene all'interno di un ambiente di elaborazione scientifica con molte altre librerie di terze parti.

Ecco alcune delle cose che panda fa bene:

Facile gestione dei dati mancanti (rappresentati come NaN) in virgola mobile e dati in virgola non mobile
Mutabilità dimensionale : è possibile inserire ed eliminare colonne da DataFrame e oggetti di dimensioni superiori
Allineamento automatico ed esplicito dei dati : gli oggetti possono essere allineati in modo esplicito a un set di etichette, oppure l'utente può semplicemente ignorare le etichette e lasciare che Series, DataFrame, ecc. allineino automaticamente i dati per te nei calcoli
Funzionalità potente e flessibile raggruppa in base a per eseguire operazioni di suddivisione, applicazione e combinazione su set di dati, sia per l'aggregazione che per la trasformazione dei dati
Semplifica la conversione di dati irregolari e indicizzati in modo diverso in altre strutture di dati Python e NumPy in oggetti DataFrame
Slicing intelligente basato su etichette , indicizzazione fantasiosa e subsetting di grandi set di dati
Unione intuitiva e unione di set di dati
Rimodellamento flessibile e rotazione dei set di dati
Etichettatura gerarchica degli assi (possibile avere più etichette per tick)
Robusti strumenti IO per caricare dati da file flat (CSV e delimitati), file Excel, database e salvare/caricare dati dal formato ultraveloce HDF5
Funzionalità specifiche per serie temporali : generazione dell'intervallo di date e conversione di frequenza, spostamento delle statistiche della finestra, spostamento della data e ritardo.

Molti di questi principi sono qui per affrontare le carenze spesso riscontrate nell'uso di altre lingue/ambienti di ricerca scientifica. Per i data scientist, lavorare con i dati è in genere suddiviso in più fasi: estrarre e pulire i dati, analizzarli/modellarli, quindi organizzare i risultati dell'analisi in una forma adatta per la stampa o la visualizzazione tabellare. panda è lo strumento ideale per tutte queste attività.

I dataframe panda sono veloci . Molti dei bit algoritmici di basso livello sono stati ampiamente modificati nel codice Cython . Tuttavia, come per qualsiasi altra cosa, la generalizzazione di solito sacrifica le prestazioni. Quindi, se ti concentri su una funzionalità per la tua applicazione, potresti essere in grado di creare uno strumento specializzato più veloce.
pandas è una dipendenza di statsmodels , il che lo rende una parte importante dell'ecosistema di calcolo statistico in Python.
panda è stato ampiamente utilizzato nella produzione in applicazioni finanziarie.

Cerca nel blog

Nerdandolo

Python Pandas questo sconosciuto

Commenti

Posta un commento

Post popolari in questo blog

CUCINANDOLO - Le ciambelline al vino "modificate"

Installiamo Python