Web Scraping Code

Uploaded by

Priyansh Arya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views4 pages

Web Scraping Code

Uploaded by

Priyansh Arya

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

import numpy as np

import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
import time
import logging
from concurrent.futures import ThreadPoolExecutor, as_completed
import os

# Setup logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %
(message)s')

# Load the Excel file

input_file_path = "D:\\Stock Market Analysis project\\Web Scraping\\Final Codes\\
ind_nifty100list.xlsx"
df = pd.read_excel(input_file_path)
logging.info("Excel file loaded successfully.")

def get_soup(url):
options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(ChromeDriverManager().install(), options=options)
driver.get(url)
time.sleep(5) # Allow time for JavaScript to execute
page_source = driver.page_source
driver.quit()
return BeautifulSoup(page_source, "html.parser")

def extract_general_info(isin):
search_url = f'https://www.investing.com/search/?q={isin}'
logging.info(f"Searching ISIN {isin} at URL: {search_url}")
soup = get_soup(search_url)

try:
link = soup.find(class_="js-inner-all-results-quote-item row").get('href')
stock_url = f'https://www.investing.com{link}'
logging.info(f"Found stock URL: {stock_url}")
stock_soup = get_soup(stock_url)

key_info_section = stock_soup.find('div', {'class': 'border-r-[#e6e9eb]

text-xs leading-4 sm:flex md:border-r md:pr-8 flex-1 sm:h-[23rem] md:mr-8', 'data-
test': 'key-info'})

# List of keywords to find

jargon = ["Open", "Prev. Close", "52 wk Range", "Volume", "EPS", "P/E
Ratio", "Dividend (Yield)"]
general_info = {}

# Loop through each keyword in jargon

for keyword in jargon:
# Iterate through the key_info_section to find the keyword
spans = key_info_section.find_all('span')
for i in range(len(spans)):
text = spans[i].get_text(strip=True) # Get text without extra
whitespace
if text == keyword:
# Special case for "52 wk Range"
if keyword == "52 wk Range":
if i + 1 < len(spans) and i + 6 < len(spans):
low_value = spans[i + 1].get_text(strip=True) # Get
the low value
high_value = spans[i + 6].get_text(strip=True) # Get
the high value
general_info['52 wk Range Low'] = low_value
general_info['52 wk Range High'] = high_value
print(f"Low value for '52 wk Range': {low_value}")
print(f"High value for '52 wk Range': {high_value}")
else:
print("'52 wk Range' does not have enough elements")
else:
# Check if the next element exists for other keywords
if i + 1 < len(spans):
next_value = spans[i + 1].get_text(strip=True) # Get
the next value
general_info[keyword] = next_value
print(f"Next value after '{keyword}':", next_value)
else:
print(f"'{keyword}' is the last element")
break # Stop searching after finding the keyword

# Find the 'li' element with 'a' tag containing the text 'Financials'
financials_link = None
for li in stock_soup.find_all('li', class_='group relative -mb-0.75 cursor-
pointer border-b-3 border-t-3 border-transparent py-3.25 text-base/6 font-semibold
hover:text-[#1256a0]'):
a_tag = li.find('a')
if a_tag and 'Financials' in a_tag.get_text(strip=True):
financials_link = a_tag['href'].strip()
break

if financials_link:
financials_link = f"https://www.investing.com{financials_link}"
print("Financials link:", financials_link)
else:
print("Financials link not found.")

# Find the 'li' element with 'a' tag containing the text 'Technical'
technical_link = None
for li in stock_soup.find_all('li', class_='group relative -mb-0.75 cursor-
pointer border-b-3 border-t-3 border-transparent py-3.25 text-base/6 font-semibold
hover:text-[#1256a0]'):
a_tag = li.find('a')
if a_tag and 'Technical' in a_tag.get_text(strip=True):
technical_link = a_tag['href'].strip()
break

if technical_link:
technical_link = f"https://www.investing.com{technical_link}"
print("Technical link:", technical_link)
else:
print("Technical link not found.")

general_info['Stock URL'] = stock_url

general_info['Financials URL'] = financials_link # Add financials link to
general info
general_info['Technical URL'] = technical_link # Add technical link to
general info
logging.info(f"General info extracted for ISIN: {isin}")
return general_info
except Exception as e:
logging.error(f"Failed to extract general info for ISIN: {isin}, Error:
{e}")
return None

def extract_financial_info(financials_url):
print(f"Extracting financial info from URL: {financials_url}")
financial_soup = get_soup(financials_url)
def extract_latest_value(table, header):
row = table.find('td', string=header)
if row:
data_cell = row.find_next_sibling('td')
return data_cell.text if data_cell else 'N/A'
return 'N/A'

tables = financial_soup.find_all('table', class_='genTbl openTbl

companyFinancialSummaryTbl')
data = {
'Total Revenue': extract_latest_value(tables[0], "Total Revenue"),
'Net Income': extract_latest_value(tables[0], "Net Income"),
'Total Assets': extract_latest_value(tables[1], "Total Assets"),
'Total Liabilities': extract_latest_value(tables[1], "Total Liabilities"),
'Total Equity': extract_latest_value(tables[1], "Total Equity"),
'Cash From Operating Activities': extract_latest_value(tables[2], "Cash
From Operating Activities"),
'Cash From Investing Activities': extract_latest_value(tables[2], "Cash
From Investing Activities"),
'Cash From Financing Activities': extract_latest_value(tables[2], "Cash
From Financing Activities")
}
logging.info(f"Financial info extracted from: {financials_url}")
print(f"Financial info for URL {financials_url}: {data}")
return data

def extract_technical_info(technical_url):
print(f"Extracting technical info from URL: {technical_url}")
technical_soup = get_soup(technical_url)

def extract_ma_value(label):
label_element = technical_soup.find('td', string=label)
if label_element:
value_element = label_element.find_next_sibling('td')
value = value_element.text.split()[0].strip() if value_element else
'N/A'
return value.rstrip('Buy').rstrip('Sell').strip() # Remove 'Buy' or
'Sell' and any extra spaces
return 'N/A'

def extract_indicator_value(label):
label_element = technical_soup.find('td', string=label)
if label_element:
value_element = label_element.find_next_sibling('td')
return value_element.text.strip() if value_element else 'N/A'
return 'N/A'

data = {
'MA50': extract_ma_value('MA50'),
'MA100': extract_ma_value('MA100'),
'MA200': extract_ma_value('MA200'),
'RSI': extract_indicator_value('RSI(14)'),
'MACD': extract_indicator_value('MACD(12,26)')
}
logging.info(f"Technical info extracted from: {technical_url}")
print(f"Technical info for URL {technical_url}: {data}")
return data

def process_stock(row):
isin = row['ISIN Code']
try:
general_info = extract_general_info(isin)
if general_info:
stock_url = general_info.pop('Stock URL')
financials_url = general_info.pop('Financials URL')
technical_url = general_info.pop('Technical URL')
financial_info = extract_financial_info(financials_url) if
financials_url else {}
technical_info = extract_technical_info(technical_url) if technical_url
else {}
all_info = {**row[['Company Name', 'Industry', 'Symbol', 'ISIN
Code']].to_dict(), **general_info, **financial_info, **technical_info}
return all_info
except Exception as e:
logging.error(f"Error processing ISIN {isin}: {e}")
return None

all_stock_data = []

with ThreadPoolExecutor(max_workers=10) as executor:

future_to_row = {executor.submit(process_stock, row): row for _, row in
df.iterrows()}
for future in as_completed(future_to_row):
row = future_to_row[future]
try:
data = future.result()
if data:
all_stock_data.append(data)
except Exception as e:
logging.error(f"Exception for ISIN {row['ISIN Code']}: {e}")

# Convert to DataFrame and save to Excel

all_stock_df = pd.DataFrame(all_stock_data)
output_file = "D:\\Stock Market Analysis project\\Web Scraping\\Final Codes\\Output
File.xlsx"
all_stock_df.to_excel(output_file, index=False)
logging.info("Data saved to Excel successfully.")
print(f"Data saved to Excel file: {output_file}")

Analyzing Historical Stock - Revenue Data and Building A Dashboard - Jupyter Notebook
No ratings yet
Analyzing Historical Stock - Revenue Data and Building A Dashboard - Jupyter Notebook
9 pages
Conservation Policies For 20th Century Architectural Heritage
No ratings yet
Conservation Policies For 20th Century Architectural Heritage
532 pages
Door & Ironmongery Schedule
No ratings yet
Door & Ironmongery Schedule
1 page
Autogen Company Research Example
No ratings yet
Autogen Company Research Example
8 pages
Advance Trading Bot
No ratings yet
Advance Trading Bot
7 pages
Fetch Analyst Forecasts From Finance Websites 1718579858681
No ratings yet
Fetch Analyst Forecasts From Finance Websites 1718579858681
2 pages
Flask
No ratings yet
Flask
4 pages
Extract Transform Load
No ratings yet
Extract Transform Load
80 pages
ALGO1
No ratings yet
ALGO1
110 pages
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
From Everand
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
Abdelfattah Ragab
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Flask Project
No ratings yet
Flask Project
5 pages
Stock Analysis Example
No ratings yet
Stock Analysis Example
9 pages
Act 115 1
No ratings yet
Act 115 1
22 pages
Main 115
No ratings yet
Main 115
22 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Prototype 13
No ratings yet
Prototype 13
1 page
111 Final
No ratings yet
111 Final
12 pages
Pandas 6 10
No ratings yet
Pandas 6 10
7 pages
Simplifying Data Science With Python
From Everand
Simplifying Data Science With Python
Billy David millican
No ratings yet
Vdasjkfladfjg Lad
No ratings yet
Vdasjkfladfjg Lad
1 page
84 3
No ratings yet
84 3
10 pages
OpenAI Function Calling For Financial Data Retrieval
No ratings yet
OpenAI Function Calling For Financial Data Retrieval
6 pages
Practical No. 01
No ratings yet
Practical No. 01
114 pages
My Own Cheatsheet
No ratings yet
My Own Cheatsheet
13 pages
Example3 1.m
No ratings yet
Example3 1.m
1 page
Tutorial 2 Extracting Data From 10 K
No ratings yet
Tutorial 2 Extracting Data From 10 K
5 pages
Stage 1 - Data Ingestion and Organization
No ratings yet
Stage 1 - Data Ingestion and Organization
9 pages
84 Store
No ratings yet
84 Store
7 pages
Pandas 5
No ratings yet
Pandas 5
6 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Importing & Managing Financial Data in Python: Aggregate Your Data by Category
No ratings yet
Importing & Managing Financial Data in Python: Aggregate Your Data by Category
32 pages
Main Code
No ratings yet
Main Code
10 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
2 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Data Analysis Tools
No ratings yet
Data Analysis Tools
26 pages
Prac 1
No ratings yet
Prac 1
5 pages
Scraping Saudi Exchange Companies
No ratings yet
Scraping Saudi Exchange Companies
1 page
Codigo Base Stocks Prediction LSTM Thushan GAnegedara
No ratings yet
Codigo Base Stocks Prediction LSTM Thushan GAnegedara
3 pages
Inspiring Powershell Articles
From Everand
Inspiring Powershell Articles
Murat Yildirimoglu
No ratings yet
Code
No ratings yet
Code
1 page
Data Science Assignment 1
No ratings yet
Data Science Assignment 1
5 pages
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
No ratings yet
Pierian Data - Python For Finance & Algorithmic Trading Course Notes
11 pages
Message
No ratings yet
Message
4 pages
10 Lessons in Front-end
From Everand
10 Lessons in Front-end
Krasimir Tsonev
2/5 (1)
Financial Analytics With Python
100% (1)
Financial Analytics With Python
40 pages
UNIX Shell Programming Interview Questions You'll Most Likely Be Asked
From Everand
UNIX Shell Programming Interview Questions You'll Most Likely Be Asked
Vibrant Publishers
No ratings yet
Analyzing Historical Stock - Jupyter Notebook
No ratings yet
Analyzing Historical Stock - Jupyter Notebook
8 pages
Stock Analysis of Ibs
No ratings yet
Stock Analysis of Ibs
3 pages
Project ML Code
No ratings yet
Project ML Code
132 pages
6-Week Project Plan - Advanced NIFTY 50 Stock Prediction System
No ratings yet
6-Week Project Plan - Advanced NIFTY 50 Stock Prediction System
9 pages
FUll Code
No ratings yet
FUll Code
43 pages
Web Scraping Tables Using Pandas: Estimated Effort: 5 Mins
No ratings yet
Web Scraping Tables Using Pandas: Estimated Effort: 5 Mins
4 pages
Ibm Python Module 5 Web Scraping Pandas
No ratings yet
Ibm Python Module 5 Web Scraping Pandas
3 pages
Trading Results Analysis
No ratings yet
Trading Results Analysis
27 pages
Dav 2 Unit
No ratings yet
Dav 2 Unit
55 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
Stoke Market
No ratings yet
Stoke Market
13 pages
Startup Ecosystem Analysis Model
No ratings yet
Startup Ecosystem Analysis Model
21 pages
Machine Learning - Multi Linear Regression Analysis
No ratings yet
Machine Learning - Multi Linear Regression Analysis
29 pages
Replicating Tradingview Chart in Python
No ratings yet
Replicating Tradingview Chart in Python
30 pages
Scraping Document
No ratings yet
Scraping Document
5 pages
Koh Pich Construction Company Cambodia-China Polytechnic University Daily Activities Report
No ratings yet
Koh Pich Construction Company Cambodia-China Polytechnic University Daily Activities Report
7 pages
Monthly Internship Report 2 (Biniyam Assefa and Tensae Degu)
No ratings yet
Monthly Internship Report 2 (Biniyam Assefa and Tensae Degu)
9 pages
MML Basalt Brochure
No ratings yet
MML Basalt Brochure
8 pages
Xi'An Train Station 25.000
No ratings yet
Xi'An Train Station 25.000
21 pages
Precaster 66 PDF
No ratings yet
Precaster 66 PDF
6 pages
Adolf Loos
No ratings yet
Adolf Loos
8 pages
Cache Performance Average Memory Access Time
No ratings yet
Cache Performance Average Memory Access Time
23 pages
Emmemobili General Catalogue 2014
No ratings yet
Emmemobili General Catalogue 2014
131 pages
Palace of Assembly
0% (1)
Palace of Assembly
3 pages
Hafeez Contractor - Contemporary Architecture
50% (2)
Hafeez Contractor - Contemporary Architecture
21 pages
Shrek 3 Walkthrough
No ratings yet
Shrek 3 Walkthrough
84 pages
How CICD Pipeline Works
No ratings yet
How CICD Pipeline Works
2 pages
Tir 60-120
No ratings yet
Tir 60-120
9 pages
07 Facades
No ratings yet
07 Facades
8 pages
B224 Epcc20 000 CS DRW 1003
No ratings yet
B224 Epcc20 000 CS DRW 1003
7 pages
Gold Arabic Culture Thesis Presentation
No ratings yet
Gold Arabic Culture Thesis Presentation
11 pages
Tips To Understand Revit Railings: 1-Choose Between Sketch A Path or Place On Host
No ratings yet
Tips To Understand Revit Railings: 1-Choose Between Sketch A Path or Place On Host
12 pages
THESIS 2023 - Zeroth Review - Panel List of Students
No ratings yet
THESIS 2023 - Zeroth Review - Panel List of Students
4 pages
1303 - Laminate Codes
No ratings yet
1303 - Laminate Codes
2 pages
MiniDX3 Setup Log
No ratings yet
MiniDX3 Setup Log
2 pages
Grout 3000: Tilemaster Adhesives
No ratings yet
Grout 3000: Tilemaster Adhesives
3 pages
Ceiling Board Up Agreement
No ratings yet
Ceiling Board Up Agreement
6 pages
Pharma Lab Unit Rates Matched R-23 Rev. IUK
No ratings yet
Pharma Lab Unit Rates Matched R-23 Rev. IUK
30 pages
Maxima Vacuum Packing Machines User Manual
No ratings yet
Maxima Vacuum Packing Machines User Manual
19 pages
BNBC 2012 PDF
No ratings yet
BNBC 2012 PDF
1,404 pages
Srikanth Footings 18.05.23 02
No ratings yet
Srikanth Footings 18.05.23 02
1 page
Avatar Addon 1.20.60 BP
No ratings yet
Avatar Addon 1.20.60 BP
1 page
Sa00329 Microcode 2020 Update Guidance
No ratings yet
Sa00329 Microcode 2020 Update Guidance
8 pages