Fraude Detectie met Hadoop - dummies - Persoonlijke financiën 2024

Het enorme aantal transacties maakt het moeilijker om fraude te herkennen vanwege de hoeveelheid gegevens, ironisch genoeg kan dezezelfde uitdaging helpen om betere voorspellende modellen voor fraude te creëren - een gebied waar Hadoop schijnt.

In de onderling verbonden wereld van vandaag, maakt het enorme volume en de complexiteit van transacties het moeilijker dan ooit om fraude te vinden. Wat vroeger 'het vinden van een naald in een hooiberg' werd genoemd, is de taak geworden 'het vinden van een specifieke naald in stapels naalden. “

Traditionele benaderingen van fraudepreventie zijn niet bijzonder efficiënt. Het beheer van ongepaste betalingen wordt bijvoorbeeld vaak beheerd door audits door analisten, wat neerkomt op een zeer klein aantal claims in combinatie met het aanvragen van medische documentatie van doelgerichte indieners. De bedrijfstak voor dit model is betalen en achtervolgen: claims worden geaccepteerd en uitbetaald en processen zoeken naar opzettelijke of onbedoelde overbetalingen door middel van een beoordeling achteraf van die claims.

Hoe verloopt de detectie van fraude nu? Vanwege de beperkingen van traditionele technologieën, worden fraudemodellen gebouwd door middel van steekproeven en het gebruik van de steekproef om een set van fraude-voorspelling en -detectiemodellen te bouwen. Wanneer u dit model contrasteert met een door Hadoop verankerde fraude-afdeling die de volledige gegevensset gebruikt - geen steekproeven - om de modellen uit te bouwen, ziet u het verschil.

Het meest voorkomende terugkerende thema dat u in de meeste Hadoop-gebruiksscenario's ziet, is dat het bedrijven helpt bij het doorbreken van het glazen plafond op het volume en de verscheidenheid aan gegevens die kunnen worden opgenomen in besluitanalyse. Hoe meer gegevens u heeft (en hoe meer geschiedenis u opslaat), hoe beter uw modellen kunnen zijn.

Het combineren van niet-traditionele gegevensvormen met uw verzameling historische transacties kan uw fraudemodellen nog robuuster maken. Als een werknemer bijvoorbeeld de schadevergoeding van een werknemer claimt voor een ongeldige back-up van een slip-and-fall-incident, kan een detectiepatroon voor fraude ontstaan door een pool van miljoenen patiëntuitkomstgevallen die de behandeling en de duur van het herstel beschrijven.

Stel je voor hoe een model werkt, stel je voor dat je probeert te achterhalen of patiënten in plattelandsgebieden langzamer herstellen dan in stedelijke gebieden. U kunt beginnen met het onderzoeken van de nabijheid van fysiotherapeutische diensten. Bestaat er een patrooncorrelatie tussen hersteltijden en geografische locatie?

Als uw afdeling fraude bepaalt dat een bepaalde blessure drie weken herstel duurt, maar dat een landbouwer met dezelfde diagnose één uur van een fysiotherapeut woont en de kantoormedewerker een praktijkdeskundige in haar kantoor heeft, is dat een andere variabele om toe te voegen aan de fraude -detectiepatroon.

Wanneer u sociale netwerkgegevens voor aanvragers verzamelt en een patiënt vindt die beweert te lijden hebben aan een whiplash, is het een goed voorbeeld van het combineren van nieuwe soorten gegevens met traditionele gegevensformulieren. om fraude te herkennen.

Als u uw inspanningen op het gebied van fraudedetectie in een hogere versnelling wilt schoppen, kan uw organisatie proberen afstand te nemen van de modellering van het marktsegment en toe te werken naar modellering op transactiebasis of op persoonsniveau.

Heel eenvoudig, het maken van een prognose op basis van een segment is nuttig, maar een beslissing nemen op basis van bepaalde informatie over een afzonderlijke transactie is (uiteraard) beter. Hiervoor werkt u een grotere set gegevens op dan conventioneel mogelijk is in de traditionele aanpak. Alleen (maximaal) 30 procent van de beschikbare informatie die nuttig kan zijn voor fraudemodellering, wordt gebruikt.

Voor het maken van fraudedetectiemodellen is Hadoop goed geschikt voor

Volume verwerken: Dat betekent de volledige gegevensset verwerken - geen gegevensbemonstering.
Nieuwe soorten gegevens beheren: Voorbeelden zijn het opnemen van proximity-to-care-services en sociale kringen om het fraudemodel in te richten.
Een agile omgeving onderhouden: Verschillende soorten analyse en wijzigingen in bestaande modellen inschakelen.

Fraudeermodellen kunnen nieuwe variabelen aan het model toevoegen en testen zonder een voorstel te hoeven doen aan uw databasebeheerdersteam en vervolgens een paar weken wachten om een schemawijziging goed te keuren en in hun omgeving te plaatsen.

Dit proces is van cruciaal belang voor het opsporen van fraude, omdat dynamische omgevingen vaak cyclische fraudepatronen hebben die in uren, dagen of weken komen en gaan. Als de gegevens die worden gebruikt om nieuwe fraudedetectiemodellen te identificeren of te versterken niet meteen beschikbaar zijn, kan het tegen de tijd dat u deze nieuwe patronen ontdekt, te laat zijn om schade te voorkomen.

Evalueer het voordeel voor uw bedrijf van niet alleen uitbouwen van meer uitgebreide modellen met meer soorten gegevens, maar ook in staat om die modellen sneller dan ooit te vernieuwen en te verbeteren. Het bedrijf dat dagelijks modellen kan verversen en verbeteren, zal het beter doen dan degenen die het elk kwartaal doen.

U denkt misschien dat dit probleem eenvoudig te beantwoorden is - vraag uw CIO gewoon om operationele uitgaven (OPEX) en investeringsuitgaven (CAPEX) goed te keuren om meer gegevens te verzamelen om betere modellen te maken en de andere 70 procent van de gegevens in uw beslissingsmodellen.

U kunt zelfs geloven dat deze investering zichzelf terugbetaalt met betere detectie van fraude; Het probleem met deze aanpak is echter de hoge kosten vooraf die moeten worden verzonken in onbekende gegevens, waarbij u niet weet of het echt waardevol inzicht bevat.

Natuurlijk, verdrievoudiging van de grootte van uw datawarehouse geeft u bijvoorbeeld meer toegang tot gestructureerde historische gegevens om uw modellen te verfijnen, maar ze kunnen geen social media-bursts bevatten. Traditionele technologieën zijn ook niet zo lenig. Hadoop maakt het eenvoudig om nieuwe variabelen in het model te introduceren en als het blijkt dat ze geen verbeteringen aan het model opleveren, kunt u de gegevens gewoon weggooien en verder gaan.