Video: AI-powered Job Promotion Engine: Let AI suggest the best channels to promote your jobs 2024
Het werken met gegevens uit één bron is één probleem; interactie met gegevens uit verschillende bronnen is heel iets anders. Tegenwoordig zijn gegevenssets echter over het algemeen afkomstig van meer dan één bron, dus u moet de complicaties begrijpen die het gebruik van meerdere gegevensbronnen kan veroorzaken. Wanneer u met meerdere gegevensbronnen werkt, moet u het volgende doen:
- Bepaal of beide gegevenssets alle vereiste gegevens bevatten. Het is onwaarschijnlijk dat twee ontwerpers datasets zullen maken die exact dezelfde gegevens bevatten, in hetzelfde formaat, van hetzelfde type en in dezelfde volgorde. Daarom moet u overwegen of de gegevenssets de gegevens leveren die u nodig hebt of dat u de gegevens op de een of andere manier moet herstellen om het gewenste resultaat te verkrijgen.
- Controleer beide datasets op problemen met datatypes. Bij één gegevensset kunnen datums worden ingevoerd als tekenreeksen en bij een andere kunnen de datums worden ingevoerd als werkelijke datumobjecten. Inconsistenties tussen gegevenstypes zullen problemen veroorzaken voor een algoritme dat gegevens in één vorm verwacht en deze in een andere ontvangt.
- Zorg ervoor dat alle gegevenssets dezelfde betekenis op gegevenselementen plaatsen. Gegevens die door één bron zijn gemaakt, kunnen een andere betekenis hebben dan gegevens die door een andere bron zijn gemaakt. De grootte van een geheel getal kan bijvoorbeeld variëren tussen verschillende bronnen, dus u kunt een geheel getal van 16 bits van één bron en een 32-bits geheel getal van een andere bron te zien krijgen. Lagere waarden hebben dezelfde betekenis, maar het 32-bits gehele getal kan grotere waarden bevatten, wat problemen met het algoritme kan veroorzaken. Datums kunnen ook problemen veroorzaken, omdat ze vaak afhankelijk zijn van het opslaan van zoveel milliseconden sinds een bepaalde datum (zoals JavaScript, dat het aantal milliseconden opslaat sinds 01 januari, 1970 UTC). De computer ziet alleen cijfers; mensen voegen betekenis aan deze getallen toe, zodat toepassingen ze op specifieke manieren interpreteren.
- Controleer de gegevenskenmerken. Gegevensitems hebben specifieke kenmerken. Deze interpretatie kan veranderen wanneer
numpy
wordt gebruikt. In feite vindt u dat gegevensattributen tussen omgevingen veranderen, en ontwikkelaars kunnen deze zelfs nog meer wijzigen door aangepaste gegevenstypen te maken. Als u gegevens uit verschillende bronnen wilt combineren, moet u deze kenmerken begrijpen om ervoor te zorgen dat u de gegevens correct interpreteert.
Hoe meer tijd u besteedt aan het verifiëren van de compatibiliteit van gegevens van elk van de bronnen die u voor een gegevensset wilt gebruiken, hoe minder waarschijnlijk het is dat u problemen ondervindt bij het werken met een algoritme. Problemen met incompatibiliteit met gegevens verschijnen niet altijd als regelrechte fouten. In sommige gevallen kan een incompatibiliteit andere problemen veroorzaken, zoals foutieve resultaten die er goed uitzien, maar die misleidende informatie bieden.
Het combineren van gegevens uit meerdere bronnen hoeft niet altijd te betekenen dat een nieuwe gegevensset wordt gemaakt die er precies zo uitziet als de brongegevenssets. In sommige gevallen maakt u gegevensaggregaten of voert u andere vormen van manipulatie uit om nieuwe gegevens uit de bestaande gegevens te maken. Analyse neemt allerlei vormen aan, en sommige van de meer exotische vormen kunnen vreselijke fouten veroorzaken als ze verkeerd worden gebruikt. Eén gegevensbron zou bijvoorbeeld algemene klantinformatie kunnen bieden en een tweede gegevensbron zou klanten koopgedrag kunnen bieden. Niet-overeenkomende resultaten tussen de twee bronnen kunnen klanten met onjuiste koopgewoonheidsinformatie matchen en problemen veroorzaken wanneer u nieuwe producten probeert te verkopen aan deze klanten. Overweeg als een extreem voorbeeld wat er zou gebeuren wanneer u patiëntinformatie uit verschillende bronnen combineert en gecombineerde patiëntinvoeren maakt in een nieuwe gegevensbron met allerlei niet-overeenkomende gegevens. Een patiënt zonder een voorgeschiedenis van een bepaalde ziekte kan eindigen met gegevens die de diagnose en zorg voor de ziekte tonen.