0% found this document useful (0 votes)

7 views14 pages

Final Document

Uploaded by

Viththagi Kirishnarajah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views14 pages

Final Document

Uploaded by

Viththagi Kirishnarajah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 14

PERSONALIZED CONTENT

RECOMMENDATION IN BOOK
PHASE 2 SUBMISSION
College code:8100
College Name: University College of Engineering, BIT
Campus, Anna University, Tiruchirappalli-620 024.
Technology: AI
Total number of students in a group:5
Student’s detail within the group:
1. Viththagi K - 810022205057
2. Sibani Selvi P - 810022205056
3. Arun J - 8100222053301
4. Ranjith M C - 810022205304
5. Gautham R A - 810022205303

Submitted by,
GAUTHAM R A, au810022205303
PHASE 2 DOCUMENT: DATA WRAGLING
AND ANALYSIS
Introduction:
Phase 2 of our project is dedicated to data wrangling and
analysis, critical steps in preparing the raw dataset for
building a ai tool for detecting online fraud transactions. This
phase involves employing various data manipulation
techniques using Python to clean, transform, and explore the
dataset. Additionally, we assume a scenario where the project
aims to recommend users about the fraud transactions once
they were about to start the transactions.
Objectives:
1. Cleanse the dataset by addressing inconsistencies, errors,
and missing values to ensure data integrity.
2. Explore the dataset's characteristics through exploratory
data analysis (EDA) to understand distributions and
correlations.
3. Engineer relevant features to enhance model performance
for accurate detections on fraud transactions.

Dataset Description:
A dataset for building a ai tool for detecting online fraud
transactions typically includes a variety of information about
both the fraud transactions and the user’s account details. In
the fraud1.csv we have the following feature variables
1.step
2.type
3.amount
4.nameOrig
5.oldbalanceOrg
6.newBalanceOrig
7.nameDest
8.oldbalanceDest
9.newbalanceDest
10.isFraud
11.isFlaggedFraud
Data Wrangling Techniques:
Data Description
➢ Head: The head() function displays the top rows of a dataset.
➢ Tail: The tail() function displays the bottom rows of a dataset.
➢ Info: The
info() method prints information about dataset, datatypes,
memory usage, column labels.
➢ Describe: The describe() method is used for calculating some
statistical data like percentile, mean and std of the numerical values.

Code:
#Data Description
import pandas as pd
import numpy as np
data=pd.read_csv("/content/fraud1.csv")
data.head()
data.tail()
data.info()
data.describe()

Output:
#head:

#tail:
#info:

#descibe:

Null Data Handling:

➢ Null data identification : Identifying null data involves finding
missing or empty values within the dataset.
➢ Null data imputation: Filling in missing values within the
dataset.
➢ Null data removal:
Eliminating the rows or columns within missing values from the
dataset.
Code :
#Null Data Handling
data.isnull()
data.notnull()
data.isnull().sum()
data.dropna()
data.fillna(0)
Output:
#isnull():

#notnull():

#isnull().sum():

#dropna():
#fillna(0):

•Data validation:
➢ Data integrity check: Verifying data consistency and integrity to
eliminate errors.
➢ Data consistency verification: Ensuring data consistency across
different columns in a datasets.
Code:
#Data Validation
data["type"].unique()
data["oldbalanceOrg"].unique()
data["isFraud"].unique()

Output:
#type:

#oldBalanceOrg:
#isFraud:

4.Data Reshaping:
➢ Reshaping rows and columns: In a dataset involves restructuring
the data to better suit the analysis or visualization needs.
➢ Transposing data: Converting rows into columns and vice versa as
needed.
Code:
#Data Reshaping
df_stacked=data.stack()
print(df_stacked.head(10))
df_unstacked=df_stacked.unstack()
print(df_unstacked.head(5))
df_melt=data.melt(id_vars=['type','isFraud'])
print(df_melt.head(10))
transposed_data=data.T
print(transposed_data)

Output:
#stacked():
#unstacked():

#melt():

#transpose():

5.Data merging:
➢ Combining datasets: Merging multiple datasets or data sources to
enrich the information available for analysis.
➢ Joining data: Joining datasets based on common columns or keys.

Code:
#data merging
data1=pd.read_csv("/content/crd.csv")
merged_data=pd.merge(data, data1, on="type", how="inner")
print(merged_data)

Output:
6.Data aggregation:
➢ Grouping data: Grouping dataset rows based on specific criteria.
➢ Aggregating data: Computing summary statistics for grouped data.
Code:
#Data Aggregation
aggregated_df = data.groupby('type').agg({'amount': ['mean', 'sum']})
print(aggregated_df)
#data Groupby
mean_value = data.groupby('type')['amount'].mean()
sum_value = data.groupby('type')['amount'].sum()

print("Mean:", mean_value)
print("Sum:", sum_value)

Output:
#data aggregation:

#data groupby:
Data Analysis Techniques:
7.Exploratory Data Analysis(EDA) :
➢ Univariate Analysis: Analysing individual variables to
understand their distributions and characteristics.
➢ Bivariate Analysis: Investigation relationships between pairs of
variables to identify correlations and dependencies.
➢ Multivariate Analysis: Exploring interactions among multiple
variables to uncover complex patterns and trends.
Code:
#Data Analysis Techniques
#Univariate Analysis
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data['amount'].tail(15),bins=20)
plt.title("univariate analysis")
plt.show()
#Bivariate analysis
x=data["amount"].head(10)
y=df["oldbalanceOrg"].head(10)
plt.scatter(x,y)
plt.title("Bivariate analysis")
plt.show()
#multivariate analysis
sns.pairplot(data.head(10))
plt.title("multivariate analysis")
plt.show()

Output:
#univariate analysis:

#bivariate analysis:

#multivariate analysis:
9. Feature Engineering:
Creating User Profiles : Aggregating user interaction data to
construct comprehensive user profiles capturing preferences and
behaviors.
Temporal Analysis : Incorporating temporal features such as time
of day or day of week to capture temporal trends in user behavior.
Content Embeddings : Generating embeddings for content
items to represent their characteristics and relationships.
Code:
import pandas as pd
from gensim.models import Word2Vec
# Creating user profiles
user_profiles = data.groupby('type').agg({'amount': 'mean'})
print("User Profiles:")
print(user_profiles)
# Temporal analysis
data['oldbalanceOrg'] = pd.to_datetime(data['oldbalanceOrg'])
data['isFraud'] = data['oldbalanceOrg'].dt.hour
print("\nTemporal Analysis (isFraud):")
print(data[['oldbalanceOrg', 'isFraud']])

Output:

#user profiles:

#temporal analysis:

Assumed Scenario:
➢ Scenario : The project aims to build an ai tool to create awareness
for user in online fraud transaction detections.
➢ Objective : Enhance user engagement and satisfaction by
delivering non fraud transactions by detecting the fraud one.
➢ Target Audience : Digital platform users who use online
transactions.
Conclusion:
Phase 2 of the project focuses on data wrangling and analysis to
prepare the dataset for building an ai tool for detecting online fraud
detections. By employing Python-based data manipulation techniques
and assuming a scenario focused on online fraud detection
transactions, we aim to transform raw data into actionable insights for
enhancing user experience and engagement on digital platforms.
Dataset link : https://www.kaggle.com/datasets/jainilcoder/online-
payment-fraud-detection

Unseen Passage For Class 7 With Questions
100% (1)
Unseen Passage For Class 7 With Questions
8 pages
Comptia Data+ Da0-001
No ratings yet
Comptia Data+ Da0-001
10 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
29 pages
Finaldoc
No ratings yet
Finaldoc
19 pages
Phase 2
No ratings yet
Phase 2
14 pages
Online Payments Fraud Detection Documentation
No ratings yet
Online Payments Fraud Detection Documentation
40 pages
Sample Phase 2 Document
No ratings yet
Sample Phase 2 Document
7 pages
Sibi 5
No ratings yet
Sibi 5
27 pages
Phase 2 New
No ratings yet
Phase 2 New
14 pages
Phase-2 For DS
No ratings yet
Phase-2 For DS
13 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Exp 8 - LM
No ratings yet
Exp 8 - LM
10 pages
Self Intoduction 1 Project
No ratings yet
Self Intoduction 1 Project
11 pages
Kavin
No ratings yet
Kavin
13 pages
Data Wrangling
No ratings yet
Data Wrangling
15 pages
Project On Fraud Analysis of Credit Transactions
No ratings yet
Project On Fraud Analysis of Credit Transactions
10 pages
Fraud 2
No ratings yet
Fraud 2
20 pages
Capstone Project Guidelines
No ratings yet
Capstone Project Guidelines
2 pages
Datascience
No ratings yet
Datascience
26 pages
Mid Term Project
No ratings yet
Mid Term Project
3 pages
Data Analytics Fundamentals-2
No ratings yet
Data Analytics Fundamentals-2
34 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
DWDM Final Lab Syllabus
No ratings yet
DWDM Final Lab Syllabus
2 pages
3rd Week Report
No ratings yet
3rd Week Report
7 pages
Data Science Workflow
No ratings yet
Data Science Workflow
7 pages
Data Preparation Basics#
No ratings yet
Data Preparation Basics#
2 pages
Chapter2 - Data Wrangling
No ratings yet
Chapter2 - Data Wrangling
48 pages
IBM Credit Card Fraud Detection
No ratings yet
IBM Credit Card Fraud Detection
12 pages
ML Lab Report
No ratings yet
ML Lab Report
23 pages
Udacity Dandsyllabus
No ratings yet
Udacity Dandsyllabus
7 pages
PCED - Lösung en
No ratings yet
PCED - Lösung en
24 pages
Data Analytics - Project Videos & Ideas
No ratings yet
Data Analytics - Project Videos & Ideas
6 pages
Capstone Report: FIRST NAME: Gopalakrishnan LAST NAME: Kalarikovilagam Subramanian M12821535
No ratings yet
Capstone Report: FIRST NAME: Gopalakrishnan LAST NAME: Kalarikovilagam Subramanian M12821535
17 pages
2A - Python+Data Analysis For Pyhton2 v2
No ratings yet
2A - Python+Data Analysis For Pyhton2 v2
38 pages
OCS353 - Review Questions
No ratings yet
OCS353 - Review Questions
3 pages
Online Fraud Report
No ratings yet
Online Fraud Report
15 pages
Data Science Papers
No ratings yet
Data Science Papers
109 pages
ML Final
No ratings yet
ML Final
34 pages
Data Sciene File
No ratings yet
Data Sciene File
36 pages
Fraud Detection in Financial Transactions - PPT.PPTX - 20240805 - 175608 - 0000
No ratings yet
Fraud Detection in Financial Transactions - PPT.PPTX - 20240805 - 175608 - 0000
22 pages
Phase 3
No ratings yet
Phase 3
19 pages
IP Project
No ratings yet
IP Project
28 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Data Analysis and Visualization LAB
No ratings yet
Data Analysis and Visualization LAB
2 pages
Data Science in Society Cat
No ratings yet
Data Science in Society Cat
5 pages
12 Useful Pandas Techniques in Python For Data Manipulation
100% (2)
12 Useful Pandas Techniques in Python For Data Manipulation
19 pages
Final Project Documentation
No ratings yet
Final Project Documentation
53 pages
21BCE3954 FraudDetectionInBanking
No ratings yet
21BCE3954 FraudDetectionInBanking
26 pages
Naan Mudhalvan Phase 2
No ratings yet
Naan Mudhalvan Phase 2
13 pages
Data Science
No ratings yet
Data Science
10 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
51 pages
Data Analysis by Using Python
No ratings yet
Data Analysis by Using Python
15 pages
Advanced Python Lab
No ratings yet
Advanced Python Lab
17 pages
1
No ratings yet
1
7 pages
DSP Unit - Ii
No ratings yet
DSP Unit - Ii
14 pages
Final Coursework - 24.2 Ad Cert Python
No ratings yet
Final Coursework - 24.2 Ad Cert Python
2 pages
Hgs Phase II
No ratings yet
Hgs Phase II
27 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Algorithms and Data Structures: An Easy Guide to Programming Skills
From Everand
Algorithms and Data Structures: An Easy Guide to Programming Skills
Rigdon Jonathan
No ratings yet
EH-SolutionsLibrary 999902104 1
No ratings yet
EH-SolutionsLibrary 999902104 1
16 pages
Statistical Graphs
No ratings yet
Statistical Graphs
16 pages
Bureau 13 d20 Auras
No ratings yet
Bureau 13 d20 Auras
6 pages
Domestic Violence A Biased Concept in Term of Men
No ratings yet
Domestic Violence A Biased Concept in Term of Men
2 pages
WME01 01 MSC 20190307 PDF
No ratings yet
WME01 01 MSC 20190307 PDF
15 pages
Neet Questions
No ratings yet
Neet Questions
4 pages
m201sp18PS22 hw7b
No ratings yet
m201sp18PS22 hw7b
1 page
HWM Model Exam
No ratings yet
HWM Model Exam
2 pages
Energy Losses in Bends and Fittings - F1-22
No ratings yet
Energy Losses in Bends and Fittings - F1-22
1 page
Brief Note PDF
No ratings yet
Brief Note PDF
37 pages
A Comparative Study of A-Star Algorithms For Search and Rescue in Perfect Maze
No ratings yet
A Comparative Study of A-Star Algorithms For Search and Rescue in Perfect Maze
5 pages
Where Can Buy Psychology in Modules Twelfth Edition David Myers Ebook With Cheap Price
No ratings yet
Where Can Buy Psychology in Modules Twelfth Edition David Myers Ebook With Cheap Price
55 pages
04-05-2025 - INC JR IIT STAR CO SUPER CHAINA MODEL-A & B - Jee - Main - WTM-03 - KEY&SOL
No ratings yet
04-05-2025 - INC JR IIT STAR CO SUPER CHAINA MODEL-A & B - Jee - Main - WTM-03 - KEY&SOL
10 pages
Documentary Compressed
No ratings yet
Documentary Compressed
15 pages
Sex Differences in Cognitive Abilities, 4th Ed (Diane F. Halpern)
No ratings yet
Sex Differences in Cognitive Abilities, 4th Ed (Diane F. Halpern)
481 pages
Martinez, Wynce Nazel B.
No ratings yet
Martinez, Wynce Nazel B.
2 pages
2252-Article Text-3992-1-10-20190421
No ratings yet
2252-Article Text-3992-1-10-20190421
22 pages
Argumentative Text Quiz! - Quizizz
No ratings yet
Argumentative Text Quiz! - Quizizz
3 pages
CH 4 Cell Coverage For Signal Traffic
No ratings yet
CH 4 Cell Coverage For Signal Traffic
54 pages
Polycyclic Aromatic Hydrocarbons in Biomass-Burning Emissions and
No ratings yet
Polycyclic Aromatic Hydrocarbons in Biomass-Burning Emissions and
11 pages
Types of Clash Detection
No ratings yet
Types of Clash Detection
8 pages
EKSEKUSI-Vol 2,+no 1+februari+2024+hal+303-317
No ratings yet
EKSEKUSI-Vol 2,+no 1+februari+2024+hal+303-317
15 pages
Fundamentals of Human Geography - Chapter 1
0% (1)
Fundamentals of Human Geography - Chapter 1
9 pages
Ray Tracing Study of Optical Characteristics of The Solar Image in The Receiver For A Thermal Solar Parabolic Dish Collector
No ratings yet
Ray Tracing Study of Optical Characteristics of The Solar Image in The Receiver For A Thermal Solar Parabolic Dish Collector
12 pages
DOH Administrative Order No. 2013-0027 - National Policy On Water Safetly Plan For All Drinking Water Source Provider
No ratings yet
DOH Administrative Order No. 2013-0027 - National Policy On Water Safetly Plan For All Drinking Water Source Provider
4 pages
1ab29bb7-bd81-49c3-8a8e-c373e8db6363
No ratings yet
1ab29bb7-bd81-49c3-8a8e-c373e8db6363
947 pages
Are Children Sexual
No ratings yet
Are Children Sexual
18 pages
Scimplify Customer Deck - Curtailed
No ratings yet
Scimplify Customer Deck - Curtailed
22 pages
DLL - All Subjects 2 - Q4 - W3 - D4
No ratings yet
DLL - All Subjects 2 - Q4 - W3 - D4
9 pages

Final Document

Uploaded by

Final Document

Uploaded by

PERSONALIZED CONTENT

Null Data Handling:

You might also like