Entretien Technique

projet Stage :
1- la premiere étape était de collecter les données, j'ai demandé aupres d'albarid
Bank de m'accordoer la permission d'avoir leur data, mais malheureusement ils n'ont
pas pu me les donner vu la sensibilité de leur données donc j'ai fini par trouver
un dataset sur kaggle qui contient l'ensemble de signature vraies et falsifiés de
plusieurs utilisateurs.w
2-apres j'ai effectué le traitement deep learning pour la detection de fraude sur
chèque bancaire
2-1 la premiere chose etait de diviser le dataset en training set et test set
2-2 apres j'ai commencé le pré traitement des images, par convertir l'image RGB en
image niveau de gris après la convertir en image binaire
2-3 apres ,l'extraction des features à partir des images comme le centroid et le
skewness et les stocker dans un fichier cv
--->centroid :les centroïdes d'image fournissent des informations utiles sur les
intensités moyennes des pixels de l'image et l'orientation de l'image
--->skewness : permet de comprendre où se trouvent les informations les plus

importantes et d'analyser les valeurs aberrantes d'une donnée.
3- la troisieme etape etait la définision du modéle, j'ai utiliser le cnn et keras

pour classer des images.
La bibliothèque Keras en Python permet de construire un CNN assez simplement.
CNN est un type de réseau neuronal artificiel utilisé dans la reconnaissance et le
traitement d’images et spécifiquement conçu pour traiter les données de pixels.
The Keras library in Python allows you to build a CNN quite simply.
CNN is a type of artificial neural network used in image recognition and processing
and specially designed to process pixel data.
4- mon code avait comme sortie une probabilité définissant si la signature est
vraie ou falisifiée, par exemple si j'importe une signature falsifié ca va donner
une proba de 0.2/0.3
Projet LinkedIn:
1- j'ai fait un traitement pour Extraire les données avec le web scraping, dont on
a scrapé pour chaque entreprise ses employées(nom, campany,profile Url), apres on a
bouclé sur le fichier des employes pour extraire leurs activitées qui contient leur
post et comments
la bibliothèque Requests C’est ce qui servira à effectuer des requêtes HTTP afin
d'obtenir les données de la page web et de Beautiful Soup pour analyser le HTML
pour définir les class qu'on aura besoin
2-j'ai procédé à un nettoyage ,j'ai supprimer toutes les lignes contenant des
valeurs nulles.
3- processing du texte :Pour ce faire, on a utilisé la bibliothèque NLTK, qui

s’agît d’un paquetages open-source populaire en Python qui fournit toutes les
tâches du ’Natural Language Processing’.
Le nettoyage des données comprend généralement un certain nombre d'étapes: Enlever
la ponctuation/Tokenization/Enlever les Stopwords/Stemming/Vectorisation
4- model training : -La première étape été de diviser le fichier ’activities.csv’

en deux fichier, train et test
-Après on a labéliser le training set en attribuant 1 aux
activités qui sont des offres/demande d’emploi et 0 sinon.
5-Model :Pour mon cas j'ai essayé plusieurs algorithmes machine learning dont KNN,
SVM, Decision tree, random forest, Naivebayes qui avait les meilleurs résultats
Naive Bayes calcule la possibilité qu'un point de données appartienne ou non à une
certaine catégorie. Dans l'analyse de texte, il peut être utilisé pour classer des
mots ou des phrases
6-Afin de visualiser notre travail, nous avons opter pour la solution Power Bi
Desktop, qui va permettre d'importer nos fichiers csv et créer des graphes (en
utilisant des filtres).
(scraping qui est le processus qui consiste à collecter des données à partir d'une
page web et à les stocker dans un format structuré, tel qu'un fichier CSV.Par
exemple, on souhaitais prédire l'intension des employées de quitter leur travails,
donc on etait intéressé par la collecte d'informations sur ces employées sur
LinkedIn par exemple
LinkedIn project:
1- We made a treatment to extract the data with the web scraping, we targeted 28
company, which we scraped for each of its employees (name, company, profile Url),
then we looped on the file of employees to extract their activities that contains
their post and comments
2- we proceeded to a cleaning, we deleted all the lines containing null values.
4- model training: -The first step was to divide the file 'activities.csv' into two
files, train and test
-Then we labeled the training set by assigning 1 to the
activities that are job offers/requests and 0 otherwise.
5-MODELS:For our case we tried several machine learning algorithms including KNN,
Naive Bayes, Decision tree, random forest, SVM which had the best results
6-In order to visualize our work, we opted for the Power Bi Desktop solution, which
will allow us to retrieve our csv files and create graphs (using filters).
(scraping is the process of collecting data from a web page and storing it in a
structured format, such as a CSV file). For example, we wanted to predict the
intention of employees to leave their jobs, so we were interested in collecting
information about these employees on LinkedIn for example.
project Internship barid bank:
1- the first step was to collect data, I asked albarid bank to give me permission
to have their data, but unfortunately they couldn't give it to me because of the
sensitivity of their data so I ended up finding a dataset on kaggle that contains
the set of true and forged signatures of several users.
2- the second step was the deep learning processing for the detection of bank check
fraud
2-1 the first thing was to divide the dataset in training set and test set
2-2 then I started the pre-processing of the images, by converting the RGB image to
gray level image after converting it to binary image
2-3 after, extract features from the images like centroid and skewness and store
them in a cv file
3- the third step was the definition of the model, I used cnn and keras because it
is an excellent way to classify images.
The Keras library in Python allows to build a CNN quite simply.
4- my code had as output a probability defining if the signature is true or

falsified, for example if I import a falsified signature it will give a proba of
0.2/0.3
Je suis en effet très intéressé par le Groupe AFD tech, dont le secteur d'activité
correspond parfaitement à mes intérêts et à mon domaine d'expertise.
Intégrer votre entreprise représente pour moi un réel atout et un réel enjeu
d'avenir dans lequel mon travail et mon honnêteté pourront s'exprimer pleinement
I am very interested in the AFD tech Group, whose sector of activity corresponds
perfectly to my interests and my field of expertise.
Joining your company represents for me a real asset and a real stake in the future
in which my work and my honesty will be able to express themselves fully.
1-Apache Spark est un moteur de traitement de données rapide dédié au Big Data. Il
permet d'effectuer un traitement de larges volumes de données de manière distribuée
(cluster computing)
2-Spark est beaucoup plus rapide que Hadoop.

En effet, la méthode utilisée par Spark pour traiter les données fait qu'il est
beaucoup plus rapide que MapReduce. Alors que MapReduce fonctionne en étapes, Spark
peut travailler sur la totalité des données en une seule fois.
3-Hadoop YARN est un gestionnaire de cluster Hadoop.

1-Un scraper qui se connecte à LinkedIn en utilisant chromedriver Afin
d’automatiser le processus:et récupère des url à partir d’un fichier
‘companies.csv’ qui contient les url LinkedIn des entreprises qu’on veut cibler.
2-Pour chaque entreprise de ce fichier, le scraper atteint à sa page LinkedIn et
accède à la page de ses employés.
3-Pour chaque employé de ces listes : le scraper accède à sa page LinkedIn et
récupère toutes ses informations dans un fichier ‘Profiles.csv’
Le fichier ’Profiles.csv’ va contenir comme informations sur les employés :
ProfilUrl, FirstName LastName, Headline, Location, Company,
4-Ensuite, il accède à la plage des flux des activités et pour chaque activité il
récupère dans un fichier ‘Activities.csv’ le ProfilUrl de son propriétaire, le
PostUrl, le type de l’activité et le PostContenent et comments
En comparant sélénium et BeautifulSoup, vous pouvez constater que BeautifulSoup est

plus convivial et vous permet d'apprendre plus rapidement et de commencer plus
facilement les petites tâches de web scraping. Selenium, quant à lui, est important
lorsque le site Web cible comporte beaucoup d'éléments java dans son code.
*
les etapes de projet it?

Entretien Technique

Transféré par

Droits d'auteur :

Formats disponibles

Entretien Technique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Entretien Technique

Transféré par

Droits d'auteur :

Formats disponibles

projet Stage :

--->skewness : permet de comprendre où se trouvent les informations les plus

3- la troisieme etape etait la définision du modéle, j'ai utiliser le cnn et keras

3- processing du texte :Pour ce faire, on a utilisé la bibliothèque NLTK, qui

4- model training : -La première étape été de diviser le fichier ’activities.csv’

2- we proceeded to a cleaning, we deleted all the lines containing null values.

4- my code had as output a probability defining if the signature is true or

2-Spark est beaucoup plus rapide que Hadoop.

3-Hadoop YARN est un gestionnaire de cluster Hadoop.

En comparant sélénium et BeautifulSoup, vous pouvez constater que BeautifulSoup est

Vous aimerez peut-être aussi