0% found this document useful (0 votes)

201 views30 pages

Fraud Detection in Python Chapter2

The document discusses various machine learning classification methods that are commonly used for fraud detection, including logistic regression, neural networks, decision trees, and random forests. It covers evaluating model performance using metrics like precision, recall, F1 score, and confusion matrices. Finally, it discusses techniques like adjusting class weights, hyperparameter tuning, and ensemble methods like stacking and voting classifiers that can be used to improve fraud detection models.

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

201 views30 pages

Fraud Detection in Python Chapter2

Uploaded by

Fgpeqw

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 30

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Review of classiﬁcation
methods for fraud
detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

What is classiﬁcation?

Goal of classiﬁcation: Use known fraud cases to train a model to

recognise new fraud cases

Examples:

Email Spam/Not spam

Transaction online fraudulent Yes/No
Tumor Malignant/Benign?

Variable to predict: y ∈ 0, 1

0: Negative class ("majority" normal cases)

1: Positive class ("minority" fraud cases)

DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Logistic Regression
DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Neural Network
DataCamp Fraud Detection in Python

Classiﬁcation methods commonly used for fraud detection

Decision trees
Random Forests
DataCamp Fraud Detection in Python

Decision Trees and Random Forests

Random forests are a collection of trees on random subsets of
features
DataCamp Fraud Detection in Python

Random Forests for fraud detection

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)

model.fit(X_train, y_train)

predicted = model.predict(X_test)

print (metrics.accuracy_score(y_test, predicted))

0.991324200913242
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Measuring fraud
detection performance

Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Accuracy isn't everything

Throw accuracy out of the window when working on fraud detection

problems
DataCamp Fraud Detection in Python

False positives, false negatives and actual fraud caught

DataCamp Fraud Detection in Python

Precision Recall trade-oﬀ

DataCamp Fraud Detection in Python

Obtaining performance metrics

# Import the packages
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score

# Calculate average precision and the PR curve

average_precision = average_precision_score(y_test, predicted)

# Obtain precision and recall

precision, recall, _ = precision_recall_curve(y_test, predicted)
DataCamp Fraud Detection in Python

Precision-Recall Curve
DataCamp Fraud Detection in Python

ROC curve to compare algorithms

DataCamp Fraud Detection in Python

Confusion matrix and classiﬁcation report

from sklearn.metrics import classification_report, confusion_matrix

# Obtain predictions
predicted = model.predict(X_test)

# Print classification report using predictions

print(classification_report(y_test, predicted))

precision recall f1-score support

0.0 0.99 1.00 1.00 2099

1.0 0.96 0.80 0.87 91

avg / total 0.99 0.99 0.99 2190

# Print confusion matrix using predictions

print(confusion_matrix(y_test, predicted))

[[2096 3]
[ 18 73]]
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Adjusting your
algorithms for fraud
detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

Balanced weights
model = RandomForestClassifier(class_weight='balanced')

model = RandomForestClassifier(class_weight='balanced_subsample')

model = LogisticRegression(class_weight='balanced')

model = SVC(kernel='linear', class_weight='balanced', probability=True)

DataCamp Fraud Detection in Python

Hyperparameter tuning for fraud detection

model = RandomForestClassifier(class_weight={0:1,1:4},random_state=1)

model = LogisticRegression(class_weight={0:1,1:4}, random_state=1)

model = RandomForestClassifier(n_estimators=10,
criterion=’gini’,
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
max_features=’auto’,
n_jobs=-1, class_weight=None)
DataCamp Fraud Detection in Python

Using GridSearchCV
from sklearn.model_selection import GridSearchCV

# Create the parameter grid

param_grid = {
'max_depth': [80, 90, 100, 110],
'max_features': [2, 3],
'min_samples_leaf': [3, 4, 5],
'min_samples_split': [8, 10, 12],
'n_estimators': [100, 200, 300, 1000]
}

# Define which model to use

model = RandomForestRegressor()

# Instantiate the grid search model

grid_search_model = GridSearchCV(estimator = model,
param_grid = param_grid, cv = 5,
n_jobs = -1, scoring='f1')
DataCamp Fraud Detection in Python

Finding the best model with GridSearchCV

# Fit the grid search to the data
grid_search_model.fit(X_train, y_train)

# Get the optimal parameters

grid_search_model.best_params_

{'bootstrap': True,
'max_depth': 80,
'max_features': 3,
'min_samples_leaf': 5,
'min_samples_split': 12,
'n_estimators': 100}

# Get the best_estimator results

grid_search.best_estimator_
grid_search.best_score_
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice!
DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Using ensemble
methods to improve
fraud detection
Charlotte Werger
Data Scientist
DataCamp Fraud Detection in Python

What are Ensemble Methods: Bagging versus Stacking

DataCamp Fraud Detection in Python

Stacking Ensemble Methods

DataCamp Fraud Detection in Python

Why use ensemble methods for fraud detection

Ensemble methods:

Are robust
Can help you avoid overﬁtting
Can typically improve prediction performance
Are a winning formula at prestigious Kaggle competitions
DataCamp Fraud Detection in Python

Voting Classiﬁer
from sklearn.ensemble import VotingClassifier

clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()

ensemble_model = VotingClassifier(estimators=[('lr', clf1),

('rf', clf2), ('gnb', clf3)], voting='hard')

ensemble_model.fit(X_train, y_train)
ensemble_model.predict(X_test)

VotingClassifier(estimators=[('lr', clf1), ('rf', clf2),

('gnb', clf3)], voting='soft', weights=[2,1,1])
DataCamp Fraud Detection in Python

Reliable labels for fraud detection

DataCamp Fraud Detection in Python

FRAUD DETECTION IN PYTHON

Let's practice

Credit Card Fraud Detection (Data Analyst)
No ratings yet
Credit Card Fraud Detection (Data Analyst)
22 pages
Credit Risk Modeling in Python Chapter3
No ratings yet
Credit Risk Modeling in Python Chapter3
35 pages
DSA Company Wise
No ratings yet
DSA Company Wise
8 pages
Designing Machine Learning Workflows in Python Chapter2
No ratings yet
Designing Machine Learning Workflows in Python Chapter2
39 pages
Introduction To Data Visualization With Seaborn Chapter3
100% (1)
Introduction To Data Visualization With Seaborn Chapter3
32 pages
Computer Project For ISC
61% (36)
Computer Project For ISC
52 pages
Designing Machine Learning Workflows in Python Chapter1
No ratings yet
Designing Machine Learning Workflows in Python Chapter1
32 pages
Introduction To Data Visualization With Seaborn Chapter2
No ratings yet
Introduction To Data Visualization With Seaborn Chapter2
38 pages
Designing Machine Learning Workflows in Python Chapter4
No ratings yet
Designing Machine Learning Workflows in Python Chapter4
38 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
20 pages
Credit Risk Modeling in Python Chapter4
100% (1)
Credit Risk Modeling in Python Chapter4
35 pages
Designing Machine Learning Workflows in Python Chapter3
No ratings yet
Designing Machine Learning Workflows in Python Chapter3
42 pages
Cleaning Data With PySpark Chapter2
100% (1)
Cleaning Data With PySpark Chapter2
25 pages
Introduction To Data Visualization With Seaborn Chapter1
No ratings yet
Introduction To Data Visualization With Seaborn Chapter1
26 pages
Analyzing IoT Data in Python Chapter2
No ratings yet
Analyzing IoT Data in Python Chapter2
35 pages
Cleaning Data With PySpark Chapter4
No ratings yet
Cleaning Data With PySpark Chapter4
23 pages
Spoken Language Processing in Python Chapter3
No ratings yet
Spoken Language Processing in Python Chapter3
26 pages
Spoken Language Processing in Python Chapter4
No ratings yet
Spoken Language Processing in Python Chapter4
46 pages
Cleaning Data With PySpark Chapter3
No ratings yet
Cleaning Data With PySpark Chapter3
25 pages
Numerical Methods - E. Balaguruswamy
No ratings yet
Numerical Methods - E. Balaguruswamy
124 pages
Spoken Language Processing in Python Chapter2
No ratings yet
Spoken Language Processing in Python Chapter2
23 pages
Cleaning Data With PySpark Chapter1
0% (1)
Cleaning Data With PySpark Chapter1
20 pages
Customer Segmentation in Python Chapter3
No ratings yet
Customer Segmentation in Python Chapter3
25 pages
Building Chatbots in Python Chapter4
No ratings yet
Building Chatbots in Python Chapter4
20 pages
Introduction To Data Visualization With Matplotlib Chapter2
No ratings yet
Introduction To Data Visualization With Matplotlib Chapter2
27 pages
MSC Data Science - 02 PDF
No ratings yet
MSC Data Science - 02 PDF
37 pages
Changing Plot Style and Color: Erin Case
No ratings yet
Changing Plot Style and Color: Erin Case
54 pages
Analyzing IoT Data in Python Chapter4
No ratings yet
Analyzing IoT Data in Python Chapter4
34 pages
Preparing Your Gures To Share With Others: Ariel Rokem
No ratings yet
Preparing Your Gures To Share With Others: Ariel Rokem
35 pages
Analyzing IoT Data in Python Chapter1
100% (1)
Analyzing IoT Data in Python Chapter1
27 pages
Graphical Methd For LPP
No ratings yet
Graphical Methd For LPP
20 pages
Building Chatbots in Python Chapter2 PDF
No ratings yet
Building Chatbots in Python Chapter2 PDF
41 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages
Analyzing IoT Data in Python Chapter3
No ratings yet
Analyzing IoT Data in Python Chapter3
30 pages
MAT 03 Numerical Analysis I
No ratings yet
MAT 03 Numerical Analysis I
2 pages
Spoken Language Processing in Python Chapter1
No ratings yet
Spoken Language Processing in Python Chapter1
17 pages
Fraud Detection in Python Chapter3
No ratings yet
Fraud Detection in Python Chapter3
33 pages
Chapter3 PDF
No ratings yet
Chapter3 PDF
36 pages
Introduction To Data Visualization With Matplotlib: Ariel Rokem
No ratings yet
Introduction To Data Visualization With Matplotlib: Ariel Rokem
30 pages
Fraud Detection in Python Chapter1
No ratings yet
Fraud Detection in Python Chapter1
25 pages
Square of Binomial, Product of Sum and Diff, Square of Multinomial
No ratings yet
Square of Binomial, Product of Sum and Diff, Square of Multinomial
11 pages
10 K Means Clustering PDF
No ratings yet
10 K Means Clustering PDF
5 pages
Good Question DSP
No ratings yet
Good Question DSP
36 pages
Linear Code - Wikipedia
No ratings yet
Linear Code - Wikipedia
27 pages
Ampeg VT 22 Manual
No ratings yet
Ampeg VT 22 Manual
10 pages
Unit31 LZ78
No ratings yet
Unit31 LZ78
15 pages
ERROR and Confusion Matrix
No ratings yet
ERROR and Confusion Matrix
29 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
16 pages
Cryptographic Hash Functions
No ratings yet
Cryptographic Hash Functions
10 pages
Generalized Sampling PDF
No ratings yet
Generalized Sampling PDF
2 pages
Programme For Quick Sort
No ratings yet
Programme For Quick Sort
4 pages
Ect303 Digital Signal Processing, December 2022
No ratings yet
Ect303 Digital Signal Processing, December 2022
3 pages
S1 21 - Dseclzg519 L2
No ratings yet
S1 21 - Dseclzg519 L2
20 pages
2022 ML Assignments
No ratings yet
2022 ML Assignments
45 pages
Kidneysegmentation Matlab
No ratings yet
Kidneysegmentation Matlab
12 pages
Adaptive Equalization Techniques Using Recursive Least Square (RLS) Algorithm
No ratings yet
Adaptive Equalization Techniques Using Recursive Least Square (RLS) Algorithm
8 pages
DSP - Eee F434 2018-19 - CMS PDF
No ratings yet
DSP - Eee F434 2018-19 - CMS PDF
3 pages
DFT
No ratings yet
DFT
6 pages
Untitled Presentation
No ratings yet
Untitled Presentation
21 pages
Assignment 2 Ee 684 A
No ratings yet
Assignment 2 Ee 684 A
2 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
72 pages
Link For Google Colab Note Book: Pa Ge
No ratings yet
Link For Google Colab Note Book: Pa Ge
17 pages
Credit Card Fraud Analysis Ashutosh
No ratings yet
Credit Card Fraud Analysis Ashutosh
3 pages
Low Pass Fir Filter Design Using Genetic Algorithm
No ratings yet
Low Pass Fir Filter Design Using Genetic Algorithm
5 pages
Credit Card Fraud Detection Using Naive Bayesian and C4.5 Decision
No ratings yet
Credit Card Fraud Detection Using Naive Bayesian and C4.5 Decision
5 pages
Anu Presentation
No ratings yet
Anu Presentation
16 pages
Credit Card Fraud Detection
100% (1)
Credit Card Fraud Detection
14 pages
10 Techniques To Deal With Class Imbalance in Machine Learning
No ratings yet
10 Techniques To Deal With Class Imbalance in Machine Learning
10 pages
Fraud Detection in Python Chapter4
No ratings yet
Fraud Detection in Python Chapter4
33 pages
CEP of SNS by Sami
No ratings yet
CEP of SNS by Sami
8 pages
Urtc45901.2018.9244782
No ratings yet
Urtc45901.2018.9244782
4 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Makale 2
No ratings yet
Makale 2
6 pages
Credit Card Fraud Detection System
100% (1)
Credit Card Fraud Detection System
7 pages
CC Fraud
No ratings yet
CC Fraud
14 pages
Module 3.4 Classification Models, Case Study
No ratings yet
Module 3.4 Classification Models, Case Study
12 pages
Industrial Oriented Mini Project - Summer Internship On
No ratings yet
Industrial Oriented Mini Project - Summer Internship On
14 pages
Credit Card Fraud Detection Using Machine Learning
No ratings yet
Credit Card Fraud Detection Using Machine Learning
28 pages
Catboost ET Comparaison
No ratings yet
Catboost ET Comparaison
20 pages
04 03 Behavior Cluster Credit Card
No ratings yet
04 03 Behavior Cluster Credit Card
24 pages
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
No ratings yet
Capstone Project - Credit Card Fraud Prediction - Alexandre Daltro
15 pages
Presentation 1
No ratings yet
Presentation 1
22 pages
Internship Reportfinal
No ratings yet
Internship Reportfinal
21 pages
Aifb Lab Manual Exp 6 - Aids
No ratings yet
Aifb Lab Manual Exp 6 - Aids
3 pages
Presentation Credit Card
No ratings yet
Presentation Credit Card
25 pages
Unit 4 - ONT
No ratings yet
Unit 4 - ONT
109 pages
Session 5
No ratings yet
Session 5
21 pages
Fraud Prediction Random Forest
No ratings yet
Fraud Prediction Random Forest
22 pages
Perform Prediction Using Regression Algorithm: Ex No: 1 Date
No ratings yet
Perform Prediction Using Regression Algorithm: Ex No: 1 Date
13 pages
Fraud Detection in Banking Data Using Machine Learning
No ratings yet
Fraud Detection in Banking Data Using Machine Learning
17 pages
Project Report
No ratings yet
Project Report
34 pages
Phase 5
No ratings yet
Phase 5
10 pages
Report
No ratings yet
Report
14 pages
04 1a-Checkpoint1
No ratings yet
04 1a-Checkpoint1
6 pages
B17 Discrete Report
No ratings yet
B17 Discrete Report
16 pages
IT265 DAA Backtracking and Branch Bound
No ratings yet
IT265 DAA Backtracking and Branch Bound
53 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
34 pages
IEEE Conference Template
No ratings yet
IEEE Conference Template
3 pages
Presentation Slides
No ratings yet
Presentation Slides
16 pages
Journal Paper
No ratings yet
Journal Paper
5 pages
PPT Dự án cuối kỳ nhóm 8
No ratings yet
PPT Dự án cuối kỳ nhóm 8
38 pages
Random Forest
No ratings yet
Random Forest
8 pages
Group Assignment - Fraud Detection-1
No ratings yet
Group Assignment - Fraud Detection-1
15 pages
Artigo Fraud-Creditcard
No ratings yet
Artigo Fraud-Creditcard
14 pages
Fraud Detection in Financial Transactions - PPT.PPTX - 20240805 - 175608 - 0000
No ratings yet
Fraud Detection in Financial Transactions - PPT.PPTX - 20240805 - 175608 - 0000
22 pages
SQR Da 2
No ratings yet
SQR Da 2
11 pages
Reseach Paper 2023
No ratings yet
Reseach Paper 2023
9 pages
Machine Learning
No ratings yet
Machine Learning
12 pages
Machine Learning
No ratings yet
Machine Learning
16 pages
Irjet V10i12130
No ratings yet
Irjet V10i12130
5 pages
Case Study Stock Market Prediciton
No ratings yet
Case Study Stock Market Prediciton
10 pages
Introduction of Phase 4
No ratings yet
Introduction of Phase 4
14 pages
Random Forest Classification
No ratings yet
Random Forest Classification
8 pages
ML Unit 3
No ratings yet
ML Unit 3
21 pages
Phase 3
No ratings yet
Phase 3
19 pages
ANN, KNN & Decision Tree
No ratings yet
ANN, KNN & Decision Tree
13 pages
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. CLASSIFICATION PREDICTIVE TECHNIQUES: SUPPORT VECTOR MACHINE, LOGISTIC REGRESSION, DISCRIMINANT ANALYSIS and DECISION TREES: Examples with MATLAB
César Pérez López
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet