Entretien Technique
Entretien Technique
Entretien Technique
1- la premiere étape était de collecter les données, j'ai demandé aupres d'albarid
Bank de m'accordoer la permission d'avoir leur data, mais malheureusement ils n'ont
pas pu me les donner vu la sensibilité de leur données donc j'ai fini par trouver
un dataset sur kaggle qui contient l'ensemble de signature vraies et falsifiés de
plusieurs utilisateurs.w
2-apres j'ai effectué le traitement deep learning pour la detection de fraude sur
chèque bancaire
2-1 la premiere chose etait de diviser le dataset en training set et test set
2-2 apres j'ai commencé le pré traitement des images, par convertir l'image RGB en
image niveau de gris après la convertir en image binaire
2-3 apres ,l'extraction des features à partir des images comme le centroid et le
skewness et les stocker dans un fichier cv
--->centroid :les centroïdes d'image fournissent des informations utiles sur les
intensités moyennes des pixels de l'image et l'orientation de l'image
The Keras library in Python allows you to build a CNN quite simply.
CNN is a type of artificial neural network used in image recognition and processing
and specially designed to process pixel data.
4- mon code avait comme sortie une probabilité définissant si la signature est
vraie ou falisifiée, par exemple si j'importe une signature falsifié ca va donner
une proba de 0.2/0.3
Projet LinkedIn:
1- j'ai fait un traitement pour Extraire les données avec le web scraping, dont on
a scrapé pour chaque entreprise ses employées(nom, campany,profile Url), apres on a
bouclé sur le fichier des employes pour extraire leurs activitées qui contient leur
post et comments
la bibliothèque Requests C’est ce qui servira à effectuer des requêtes HTTP afin
d'obtenir les données de la page web et de Beautiful Soup pour analyser le HTML
pour définir les class qu'on aura besoin
2-j'ai procédé à un nettoyage ,j'ai supprimer toutes les lignes contenant des
valeurs nulles.
5-Model :Pour mon cas j'ai essayé plusieurs algorithmes machine learning dont KNN,
SVM, Decision tree, random forest, Naivebayes qui avait les meilleurs résultats
Naive Bayes calcule la possibilité qu'un point de données appartienne ou non à une
certaine catégorie. Dans l'analyse de texte, il peut être utilisé pour classer des
mots ou des phrases
6-Afin de visualiser notre travail, nous avons opter pour la solution Power Bi
Desktop, qui va permettre d'importer nos fichiers csv et créer des graphes (en
utilisant des filtres).
(scraping qui est le processus qui consiste à collecter des données à partir d'une
page web et à les stocker dans un format structuré, tel qu'un fichier CSV.Par
exemple, on souhaitais prédire l'intension des employées de quitter leur travails,
donc on etait intéressé par la collecte d'informations sur ces employées sur
LinkedIn par exemple
LinkedIn project:
1- We made a treatment to extract the data with the web scraping, we targeted 28
company, which we scraped for each of its employees (name, company, profile Url),
then we looped on the file of employees to extract their activities that contains
their post and comments
4- model training: -The first step was to divide the file 'activities.csv' into two
files, train and test
-Then we labeled the training set by assigning 1 to the
activities that are job offers/requests and 0 otherwise.
5-MODELS:For our case we tried several machine learning algorithms including KNN,
Naive Bayes, Decision tree, random forest, SVM which had the best results
6-In order to visualize our work, we opted for the Power Bi Desktop solution, which
will allow us to retrieve our csv files and create graphs (using filters).
(scraping is the process of collecting data from a web page and storing it in a
structured format, such as a CSV file). For example, we wanted to predict the
intention of employees to leave their jobs, so we were interested in collecting
information about these employees on LinkedIn for example.
project Internship barid bank:
1- the first step was to collect data, I asked albarid bank to give me permission
to have their data, but unfortunately they couldn't give it to me because of the
sensitivity of their data so I ended up finding a dataset on kaggle that contains
the set of true and forged signatures of several users.
2- the second step was the deep learning processing for the detection of bank check
fraud
2-1 the first thing was to divide the dataset in training set and test set
2-2 then I started the pre-processing of the images, by converting the RGB image to
gray level image after converting it to binary image
2-3 after, extract features from the images like centroid and skewness and store
them in a cv file
3- the third step was the definition of the model, I used cnn and keras because it
is an excellent way to classify images.
The Keras library in Python allows to build a CNN quite simply.
Je suis en effet très intéressé par le Groupe AFD tech, dont le secteur d'activité
correspond parfaitement à mes intérêts et à mon domaine d'expertise.
Intégrer votre entreprise représente pour moi un réel atout et un réel enjeu
d'avenir dans lequel mon travail et mon honnêteté pourront s'exprimer pleinement
I am very interested in the AFD tech Group, whose sector of activity corresponds
perfectly to my interests and my field of expertise.
Joining your company represents for me a real asset and a real stake in the future
in which my work and my honesty will be able to express themselves fully.
1-Apache Spark est un moteur de traitement de données rapide dédié au Big Data. Il
permet d'effectuer un traitement de larges volumes de données de manière distribuée
(cluster computing)
*
les etapes de projet it?