Met behulp van het Python-ecosysteem voor gegevenswetenschap - dummies

Video: Rise for beginners - What is Rise ? 2024

U moet bibliotheken laden om datafiscustaken in Python uit te voeren. Hier is een overzicht van de bibliotheken die u kunt gebruiken voor data science. Deze bibliotheken kunnen meerdere functies uitvoeren voor de gegevenswetenschapper.

Toegang tot wetenschappelijke hulpmiddelen met SciPy

De SciPy-stack bevat een groot aantal andere bibliotheken die u ook afzonderlijk kunt downloaden. Deze bibliotheken bieden ondersteuning voor wiskunde, wetenschappen en techniek. Wanneer u SciPy verkrijgt, krijgt u een verzameling bibliotheken die zijn ontworpen om samen toepassingen te maken van verschillende soorten. Deze bibliotheken zijn

NumPy
SciPy
matplotlib
IPython
Sympy
panda's

De SciPy-bibliotheek zelf richt zich op numerieke routines, zoals routines voor numerieke integratie en optimalisatie. SciPy is een universele bibliotheek die functionaliteit biedt voor meerdere probleemdomeinen. Het biedt ook ondersteuning voor domeinspecifieke bibliotheken, zoals Scikit-learn, Scikit-image en statsmodels.

Fundamenteel wetenschappelijk computergebruik uitvoeren met NumPy

De NumPy-bibliotheek biedt de middelen voor het uitvoeren van n-dimensionale arraymanipulatie, die van cruciaal belang is voor gegevenswerk. U kunt niet gemakkelijk toegang krijgen tot n-dimensionale arrays zonder NumPy-functies die ondersteuning bieden voor lineaire algebra, Fourier-transformatie en het genereren van willekeurige getallen.

Gegevensanalyse uitvoeren met pandas

De pandasbibliotheek biedt ondersteuning voor gegevensstructuren en hulpmiddelen voor gegevensanalyse. De bibliotheek is geoptimaliseerd om gegevenswetenschapstaken bijzonder snel en efficiënt uit te voeren. Het basisprincipe achter panda's is om gegevensanalyse en modelleringsondersteuning voor Python te bieden die vergelijkbaar is met andere talen, zoals R.

Machinaal leren implementeren met Scikit-learn

De Scikit-leerbibliotheek is een van een aantal van Scikit-bibliotheken die voortbouwen op de mogelijkheden van NumPy en SciPy om Python-ontwikkelaars domeinspecifieke taken te laten uitvoeren. In dit geval richt de bibliotheek zich op data mining en data-analyse. Het biedt toegang tot de volgende soorten functionaliteit:

Classificatie
Regressie
Clustering
Dimensionaliteitsvermindering
Modelselectie
Preprocessing

De gegevens plotten met matplotlib

De matplotlib-bibliotheek biedt u een MATLAB-achtige interface voor het maken van gegevenspresentaties van de analyse die u uitvoert. De bibliotheek is momenteel beperkt tot 2D-uitvoer, maar biedt u nog steeds de middelen om grafisch de gegevenspatronen weer te geven die u ziet in de gegevens die u analyseert.Zonder deze bibliotheek kon u geen uitvoer maken die mensen buiten de data science-gemeenschap gemakkelijk konden begrijpen.

HTML-documenten parseren met Beautiful Soup

De download van de Beautiful Soup-bibliotheek is te vinden op de website van Python. Deze bibliotheek biedt de mogelijkheid om HTML- of XML-gegevens te ontleden op een manier die Python begrijpt. Hiermee kunt u werken met op bomen gebaseerde gegevens.

Naast het bieden van een manier om met op bomen gebaseerde gegevens te werken, haalt Beautiful Soup veel werk uit het werken met HTML-documenten. Het converteert bijvoorbeeld automatisch de codering (de manier waarop tekens in een document worden opgeslagen) van HTML-documenten van UTF-8 naar Unicode. Een ontwikkelaar van Python zou zich normaal gesproken zorgen moeten maken over zaken als codering, maar met Beautiful Soup kunt u zich in plaats daarvan concentreren op uw code.