2.1 Indeed - Code

Uploaded by

tarekrecovery21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views2 pages

2.1 Indeed - Code

Uploaded by

tarekrecovery21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

from selenium import webdriver

from bs4 import BeautifulSoup

import time
import pandas as pd

driver = webdriver.Chrome(
'')

driver.get('https://ca.indeed.com/')

########################################## - SCRAPING THE DATA -

#############################################

df = pd.DataFrame({'Link':[''], 'Job Title':[''], 'Company':[''], 'Date Posted':

[''], 'Location':['']})

while True:

soup = BeautifulSoup(driver.page_source, 'lxml')

boxes = soup.find_all('div', class_ ='job_seen_beacon')

for i in boxes:
link = i.find('a').get('href')
job_title = i.find('a', class_ = 'jcs-JobTitle css-jspxzf eu4oa1w0').text
company = i.find('span', class_ = 'companyName').text
location = i.find('div', class_ = 'companyLocation').text
date_posted = i.find('span', class_ = 'date').text
df = df.append({'Link':link, 'Job Title':job_title, 'Company':company,
'Date Posted':date_posted, 'Location':location}, ignore_index = True)

next_page = soup.find('a', {'aria-label': 'Next Page'}).get('href')

next_page = 'https://ca.indeed.com' +next_page
driver.get(next_page)
time.sleep(3)

######################################### - CLEANING THE DATA -

##########################################

df['Link'] = 'https://ca.indeed.com' + df['Link']

def posted(x):
x = x.replace('PostedPosted','').strip()
return x

df = df.iloc[1:,:]
def day(x):
try:
x = x.replace('days ago','').strip()
x = x.replace('day ago','').strip()
return float(x)
except:
return x

df['Date Posted'] = df['Date Posted'].apply(posted)

df['Date Posted'] = df['Date Posted'].apply(day)

################################### SEND EMAIL WITH CSV

###############################

Resume Screening Project Report Final
No ratings yet
Resume Screening Project Report Final
13 pages
Ieee Paper
No ratings yet
Ieee Paper
7 pages
AI Agents For Resumes
No ratings yet
AI Agents For Resumes
4 pages
DeepSeek Email Classification Overview
No ratings yet
DeepSeek Email Classification Overview
8 pages
This Is A PDF Extractor
No ratings yet
This Is A PDF Extractor
2 pages
SkillSync Midterm Presentation
No ratings yet
SkillSync Midterm Presentation
31 pages
Chatgpt Code Chat Data
No ratings yet
Chatgpt Code Chat Data
32 pages
87 1
No ratings yet
87 1
10 pages
Resume Shortlisting System (14!2!2025)
No ratings yet
Resume Shortlisting System (14!2!2025)
15 pages
Web Scraping Project
No ratings yet
Web Scraping Project
1 page
Capstone Project AI
No ratings yet
Capstone Project AI
10 pages
Real Estate Scraper
No ratings yet
Real Estate Scraper
23 pages
Sourcecode
No ratings yet
Sourcecode
16 pages
Resume Screening
No ratings yet
Resume Screening
16 pages
Code Output
No ratings yet
Code Output
12 pages
Scrape Job Postings Data From Indeed
No ratings yet
Scrape Job Postings Data From Indeed
6 pages
Python Code
No ratings yet
Python Code
5 pages
Views
No ratings yet
Views
7 pages
Project 2 EmailbySeleniumSameProject
No ratings yet
Project 2 EmailbySeleniumSameProject
16 pages
Python Scraper
No ratings yet
Python Scraper
2 pages
Resume Screener
No ratings yet
Resume Screener
17 pages
Another Hack Test3
No ratings yet
Another Hack Test3
4 pages
DH
No ratings yet
DH
4 pages
Which Defines A Link
No ratings yet
Which Defines A Link
6 pages
MADANMOHAN
No ratings yet
MADANMOHAN
2 pages
Main 115
No ratings yet
Main 115
22 pages
Act 115 1
No ratings yet
Act 115 1
22 pages
2.1 Lead - Generation - Code
No ratings yet
2.1 Lead - Generation - Code
2 pages
CV Nagaraj 3 4 2023.pdf 1680525267971
No ratings yet
CV Nagaraj 3 4 2023.pdf 1680525267971
3 pages
Indeed Scraper
No ratings yet
Indeed Scraper
2 pages
57 Resume Sales 97 2003
No ratings yet
57 Resume Sales 97 2003
1 page
Vignesh Ramesh
No ratings yet
Vignesh Ramesh
4 pages
Code
No ratings yet
Code
2 pages
Gautam Balakrishnan - Python Developer
No ratings yet
Gautam Balakrishnan - Python Developer
6 pages
Gautam Balakrishnan - Python Developer
No ratings yet
Gautam Balakrishnan - Python Developer
6 pages
Assigment (Golang)
No ratings yet
Assigment (Golang)
4 pages
Updated Fake Job Posting Detection Presentation
No ratings yet
Updated Fake Job Posting Detection Presentation
13 pages
Web Scrapping
No ratings yet
Web Scrapping
3 pages
111 Final
No ratings yet
111 Final
12 pages
Linkdin
No ratings yet
Linkdin
2 pages
Py 4
No ratings yet
Py 4
2 pages
Resume 5
No ratings yet
Resume 5
2 pages
Indeed
No ratings yet
Indeed
2 pages
Talabat
No ratings yet
Talabat
2 pages
84 3
No ratings yet
84 3
10 pages
Task Web Scraping
No ratings yet
Task Web Scraping
2 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
3 pages
Prem Bahadur Thapa
No ratings yet
Prem Bahadur Thapa
5 pages
Vijaya Rekha Pandimurugan - Resum PDF
No ratings yet
Vijaya Rekha Pandimurugan - Resum PDF
2 pages
Synopsis Report
No ratings yet
Synopsis Report
2 pages
Data Scientist Job Overview
No ratings yet
Data Scientist Job Overview
2 pages
Sadu Girendra: Email: Mobile No
No ratings yet
Sadu Girendra: Email: Mobile No
3 pages
Crawler Tutorial (Video Transcript)
No ratings yet
Crawler Tutorial (Video Transcript)
6 pages
Notice For Nexus Services
No ratings yet
Notice For Nexus Services
1 page
Resume Sample Format 1
No ratings yet
Resume Sample Format 1
1 page
Job Postings HW
No ratings yet
Job Postings HW
3 pages

2.1 Indeed - Code

Uploaded by

2.1 Indeed - Code

Uploaded by

from selenium import webdriver

from bs4 import BeautifulSoup

########################################## - SCRAPING THE DATA -

df = pd.DataFrame({'Link':[''], 'Job Title':[''], 'Company':[''], 'Date Posted':

soup = BeautifulSoup(driver.page_source, 'lxml')

next_page = soup.find('a', {'aria-label': 'Next Page'}).get('href')

######################################### - CLEANING THE DATA -

df['Link'] = 'https://ca.indeed.com' + df['Link']

df['Date Posted'] = df['Date Posted'].apply(posted)

################################### SEND EMAIL WITH CSV

You might also like