Web Scraping Code

Uploaded by

Priyansh Arya

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

Web Scraping Code

Uploaded by

Priyansh Arya

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

import numpy as np

import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
import time
import logging
from concurrent.futures import ThreadPoolExecutor, as_completed
import os

# Setup logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %
(message)s')

# Load the Excel file

input_file_path = "D:\\Stock Market Analysis project\\Web Scraping\\Final Codes\\
ind_nifty100list.xlsx"
df = pd.read_excel(input_file_path)
logging.info("Excel file loaded successfully.")

def get_soup(url):
options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(ChromeDriverManager().install(), options=options)
driver.get(url)
time.sleep(5) # Allow time for JavaScript to execute
page_source = driver.page_source
driver.quit()
return BeautifulSoup(page_source, "html.parser")

def extract_general_info(isin):
search_url = f'https://www.investing.com/search/?q={isin}'
logging.info(f"Searching ISIN {isin} at URL: {search_url}")
soup = get_soup(search_url)

try:
link = soup.find(class_="js-inner-all-results-quote-item row").get('href')
stock_url = f'https://www.investing.com{link}'
logging.info(f"Found stock URL: {stock_url}")
stock_soup = get_soup(stock_url)

key_info_section = stock_soup.find('div', {'class': 'border-r-[#e6e9eb]

text-xs leading-4 sm:flex md:border-r md:pr-8 flex-1 sm:h-[23rem] md:mr-8', 'data-
test': 'key-info'})

# List of keywords to find

jargon = ["Open", "Prev. Close", "52 wk Range", "Volume", "EPS", "P/E
Ratio", "Dividend (Yield)"]
general_info = {}

# Loop through each keyword in jargon

for keyword in jargon:
# Iterate through the key_info_section to find the keyword
spans = key_info_section.find_all('span')
for i in range(len(spans)):
text = spans[i].get_text(strip=True) # Get text without extra
whitespace
if text == keyword:
# Special case for "52 wk Range"
if keyword == "52 wk Range":
if i + 1 < len(spans) and i + 6 < len(spans):
low_value = spans[i + 1].get_text(strip=True) # Get
the low value
high_value = spans[i + 6].get_text(strip=True) # Get
the high value
general_info['52 wk Range Low'] = low_value
general_info['52 wk Range High'] = high_value
print(f"Low value for '52 wk Range': {low_value}")
print(f"High value for '52 wk Range': {high_value}")
else:
print("'52 wk Range' does not have enough elements")
else:
# Check if the next element exists for other keywords
if i + 1 < len(spans):
next_value = spans[i + 1].get_text(strip=True) # Get
the next value
general_info[keyword] = next_value
print(f"Next value after '{keyword}':", next_value)
else:
print(f"'{keyword}' is the last element")
break # Stop searching after finding the keyword

# Find the 'li' element with 'a' tag containing the text 'Financials'
financials_link = None
for li in stock_soup.find_all('li', class_='group relative -mb-0.75 cursor-
pointer border-b-3 border-t-3 border-transparent py-3.25 text-base/6 font-semibold
hover:text-[#1256a0]'):
a_tag = li.find('a')
if a_tag and 'Financials' in a_tag.get_text(strip=True):
financials_link = a_tag['href'].strip()
break

if financials_link:
financials_link = f"https://www.investing.com{financials_link}"
print("Financials link:", financials_link)
else:
print("Financials link not found.")

# Find the 'li' element with 'a' tag containing the text 'Technical'
technical_link = None
for li in stock_soup.find_all('li', class_='group relative -mb-0.75 cursor-
pointer border-b-3 border-t-3 border-transparent py-3.25 text-base/6 font-semibold
hover:text-[#1256a0]'):
a_tag = li.find('a')
if a_tag and 'Technical' in a_tag.get_text(strip=True):
technical_link = a_tag['href'].strip()
break

if technical_link:
technical_link = f"https://www.investing.com{technical_link}"
print("Technical link:", technical_link)
else:
print("Technical link not found.")

general_info['Stock URL'] = stock_url

general_info['Financials URL'] = financials_link # Add financials link to
general info
general_info['Technical URL'] = technical_link # Add technical link to
general info
logging.info(f"General info extracted for ISIN: {isin}")
return general_info
except Exception as e:
logging.error(f"Failed to extract general info for ISIN: {isin}, Error:
{e}")
return None

def extract_financial_info(financials_url):
print(f"Extracting financial info from URL: {financials_url}")
financial_soup = get_soup(financials_url)
def extract_latest_value(table, header):
row = table.find('td', string=header)
if row:
data_cell = row.find_next_sibling('td')
return data_cell.text if data_cell else 'N/A'
return 'N/A'

tables = financial_soup.find_all('table', class_='genTbl openTbl

companyFinancialSummaryTbl')
data = {
'Total Revenue': extract_latest_value(tables[0], "Total Revenue"),
'Net Income': extract_latest_value(tables[0], "Net Income"),
'Total Assets': extract_latest_value(tables[1], "Total Assets"),
'Total Liabilities': extract_latest_value(tables[1], "Total Liabilities"),
'Total Equity': extract_latest_value(tables[1], "Total Equity"),
'Cash From Operating Activities': extract_latest_value(tables[2], "Cash
From Operating Activities"),
'Cash From Investing Activities': extract_latest_value(tables[2], "Cash
From Investing Activities"),
'Cash From Financing Activities': extract_latest_value(tables[2], "Cash
From Financing Activities")
}
logging.info(f"Financial info extracted from: {financials_url}")
print(f"Financial info for URL {financials_url}: {data}")
return data

def extract_technical_info(technical_url):
print(f"Extracting technical info from URL: {technical_url}")
technical_soup = get_soup(technical_url)

def extract_ma_value(label):
label_element = technical_soup.find('td', string=label)
if label_element:
value_element = label_element.find_next_sibling('td')
value = value_element.text.split()[0].strip() if value_element else
'N/A'
return value.rstrip('Buy').rstrip('Sell').strip() # Remove 'Buy' or
'Sell' and any extra spaces
return 'N/A'

def extract_indicator_value(label):
label_element = technical_soup.find('td', string=label)
if label_element:
value_element = label_element.find_next_sibling('td')
return value_element.text.strip() if value_element else 'N/A'
return 'N/A'

data = {
'MA50': extract_ma_value('MA50'),
'MA100': extract_ma_value('MA100'),
'MA200': extract_ma_value('MA200'),
'RSI': extract_indicator_value('RSI(14)'),
'MACD': extract_indicator_value('MACD(12,26)')
}
logging.info(f"Technical info extracted from: {technical_url}")
print(f"Technical info for URL {technical_url}: {data}")
return data

def process_stock(row):
isin = row['ISIN Code']
try:
general_info = extract_general_info(isin)
if general_info:
stock_url = general_info.pop('Stock URL')
financials_url = general_info.pop('Financials URL')
technical_url = general_info.pop('Technical URL')
financial_info = extract_financial_info(financials_url) if
financials_url else {}
technical_info = extract_technical_info(technical_url) if technical_url
else {}
all_info = {**row[['Company Name', 'Industry', 'Symbol', 'ISIN
Code']].to_dict(), **general_info, **financial_info, **technical_info}
return all_info
except Exception as e:
logging.error(f"Error processing ISIN {isin}: {e}")
return None

all_stock_data = []

with ThreadPoolExecutor(max_workers=10) as executor:

future_to_row = {executor.submit(process_stock, row): row for _, row in
df.iterrows()}
for future in as_completed(future_to_row):
row = future_to_row[future]
try:
data = future.result()
if data:
all_stock_data.append(data)
except Exception as e:
logging.error(f"Exception for ISIN {row['ISIN Code']}: {e}")

# Convert to DataFrame and save to Excel

all_stock_df = pd.DataFrame(all_stock_data)
output_file = "D:\\Stock Market Analysis project\\Web Scraping\\Final Codes\\Output
File.xlsx"
all_stock_df.to_excel(output_file, index=False)
logging.info("Data saved to Excel successfully.")
print(f"Data saved to Excel file: {output_file}")

Construction and Application of Heat Sensor 2
87% (23)
Construction and Application of Heat Sensor 2
42 pages
Ian Rowland Full Facts Book of Cold Reading PDF
0% (3)
Ian Rowland Full Facts Book of Cold Reading PDF
5 pages
Sw4548e PDF
100% (1)
Sw4548e PDF
152 pages
labmanual
No ratings yet
labmanual
18 pages
Answers Python base
No ratings yet
Answers Python base
7 pages
app
No ratings yet
app
7 pages
12pracperformance24-25_Python
No ratings yet
12pracperformance24-25_Python
8 pages
python programs
No ratings yet
python programs
10 pages
Mainpy (Customer Segmentation)
No ratings yet
Mainpy (Customer Segmentation)
6 pages
Binary File Handling
No ratings yet
Binary File Handling
8 pages
3 CS Practical File PYTHON PROGRAM
No ratings yet
3 CS Practical File PYTHON PROGRAM
48 pages
Class Xii Computer Science Practical Programs - 2022-23 2
No ratings yet
Class Xii Computer Science Practical Programs - 2022-23 2
33 pages
Economist Old Edition
No ratings yet
Economist Old Edition
7 pages
SlipSolutions1st MCA
No ratings yet
SlipSolutions1st MCA
40 pages
Computer Science Practical File
No ratings yet
Computer Science Practical File
55 pages
Iae 2 Answer Key
No ratings yet
Iae 2 Answer Key
4 pages
Csv Connectivity With Gui Interface.py
No ratings yet
Csv Connectivity With Gui Interface.py
6 pages
Python RR
No ratings yet
Python RR
39 pages
Main
No ratings yet
Main
7 pages
DSE ASSIGNMENT
No ratings yet
DSE ASSIGNMENT
30 pages
Cs Activity
No ratings yet
Cs Activity
29 pages
Arnam Program File
No ratings yet
Arnam Program File
15 pages
enc=encoded=FedT3zd3Vh_ZdBriyt8voikLqzGXbHjetRLXNEevEiR5v3sDMrd6kXrtwnCsPaY=
No ratings yet
enc=encoded=FedT3zd3Vh_ZdBriyt8voikLqzGXbHjetRLXNEevEiR5v3sDMrd6kXrtwnCsPaY=
55 pages
Comp
No ratings yet
Comp
15 pages
Views - Py Forlder
No ratings yet
Views - Py Forlder
8 pages
Arpit Negi Project CS
No ratings yet
Arpit Negi Project CS
29 pages
Akash
No ratings yet
Akash
4 pages
Class 12 Practical Programs
No ratings yet
Class 12 Practical Programs
10 pages
computer science programs
No ratings yet
computer science programs
13 pages
Emp at Tricode
No ratings yet
Emp at Tricode
6 pages
CS Practical File 2023-24
No ratings yet
CS Practical File 2023-24
49 pages
Import Mysq1123
No ratings yet
Import Mysq1123
9 pages
CS Practical File 2023-24
No ratings yet
CS Practical File 2023-24
51 pages
Case
No ratings yet
Case
11 pages
ASSIGNS CLASS-12-PART-4-Final
No ratings yet
ASSIGNS CLASS-12-PART-4-Final
11 pages
Machine Learning Lab Record: Dr. Sarika Hegde
No ratings yet
Machine Learning Lab Record: Dr. Sarika Hegde
23 pages
dropdownlistscraping
No ratings yet
dropdownlistscraping
7 pages
Solution- Practical QP
No ratings yet
Solution- Practical QP
6 pages
Practical File Questions
No ratings yet
Practical File Questions
34 pages
SAFIN_AI_PRAC_1-14 (1)
No ratings yet
SAFIN_AI_PRAC_1-14 (1)
20 pages
shreyansh report file
No ratings yet
shreyansh report file
64 pages
Combined
No ratings yet
Combined
41 pages
Python Lab
No ratings yet
Python Lab
16 pages
Message 10
No ratings yet
Message 10
6 pages
Class12_Python_Programs
No ratings yet
Class12_Python_Programs
12 pages
Practical_File_Class_XII_CS_2024 for batch 2024 205
No ratings yet
Practical_File_Class_XII_CS_2024 for batch 2024 205
41 pages
IRT Lab Programs
No ratings yet
IRT Lab Programs
9 pages
Adil Practicall Final
No ratings yet
Adil Practicall Final
48 pages
Python 2 Lab Esy
No ratings yet
Python 2 Lab Esy
34 pages
6-10 Python Lab Program
No ratings yet
6-10 Python Lab Program
16 pages
ML Lab Manual PDF
No ratings yet
ML Lab Manual PDF
9 pages
DOC-20250211-WA0009. (1)
No ratings yet
DOC-20250211-WA0009. (1)
26 pages
PYTHON INTERNAL-2
No ratings yet
PYTHON INTERNAL-2
6 pages
Aryan Cs Project
No ratings yet
Aryan Cs Project
28 pages
Practice Questions For Practical
100% (1)
Practice Questions For Practical
11 pages
Cs Practical Files
No ratings yet
Cs Practical Files
30 pages
Practical 12th CS
No ratings yet
Practical 12th CS
18 pages
Lab Building Simple Shopping Cart Using Python, Flask, MySQL
No ratings yet
Lab Building Simple Shopping Cart Using Python, Flask, MySQL
14 pages
main.py (1)
No ratings yet
main.py (1)
10 pages
IR - 754 All Practical
No ratings yet
IR - 754 All Practical
21 pages
Monitor Py
No ratings yet
Monitor Py
35 pages
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
From Everand
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
Abdelfattah Ragab
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Chainflex Data Cables
No ratings yet
Chainflex Data Cables
9 pages
Scientific Method & Computer Troubleshooting
No ratings yet
Scientific Method & Computer Troubleshooting
2 pages
Auction MGT System For Dtu Documentation
No ratings yet
Auction MGT System For Dtu Documentation
69 pages
Serialization
No ratings yet
Serialization
6 pages
anthropology-template-consent-form-students-updated-May-2024
No ratings yet
anthropology-template-consent-form-students-updated-May-2024
3 pages
Digital Learning Ebook
No ratings yet
Digital Learning Ebook
56 pages
Sample Modern Resume Template
No ratings yet
Sample Modern Resume Template
3 pages
Get Management of Information Security 6th Edition Michael E. Whitman - eBook PDF free all chapters
100% (5)
Get Management of Information Security 6th Edition Michael E. Whitman - eBook PDF free all chapters
41 pages
Pointer in C
No ratings yet
Pointer in C
7 pages
NCII EIM Questions
No ratings yet
NCII EIM Questions
5 pages
Certificate of Registration of Environmental Management System To ISO 14001:2015
No ratings yet
Certificate of Registration of Environmental Management System To ISO 14001:2015
4 pages
IEEE Standard 754 Floating Point Numbers
No ratings yet
IEEE Standard 754 Floating Point Numbers
7 pages
CS625 Highlighted Ppts by Masters
No ratings yet
CS625 Highlighted Ppts by Masters
254 pages
Label Noise Types and Their Effects On Deep Learning
No ratings yet
Label Noise Types and Their Effects On Deep Learning
6 pages
A Simple Scheme For Visual Cryptography: Abstract-Here An Algorithm Is Proposed To
No ratings yet
A Simple Scheme For Visual Cryptography: Abstract-Here An Algorithm Is Proposed To
5 pages
8086 Microprocessor: J Srinivasa Rao Govt Polytechnic Kothagudem Khammam
No ratings yet
8086 Microprocessor: J Srinivasa Rao Govt Polytechnic Kothagudem Khammam
129 pages
VTM 201508
No ratings yet
VTM 201508
2 pages
YOKOGAWA MT210 MT210F MT220 Users Manual
No ratings yet
YOKOGAWA MT210 MT210F MT220 Users Manual
96 pages
Electrical Power Quality by J.B. Dixit and Amit Yadav
No ratings yet
Electrical Power Quality by J.B. Dixit and Amit Yadav
183 pages
Paper 2 Information For Management Control: June 2008 - Study Guide Certified Accounting Technician Examination
No ratings yet
Paper 2 Information For Management Control: June 2008 - Study Guide Certified Accounting Technician Examination
6 pages
Project 3 Leading and Managing Medt 8462
No ratings yet
Project 3 Leading and Managing Medt 8462
31 pages
Kumaraguru: Class Notes
No ratings yet
Kumaraguru: Class Notes
11 pages
Salesforce Interview Questions and Answers - Salesforce Admin and Developer Training For Beginners
No ratings yet
Salesforce Interview Questions and Answers - Salesforce Admin and Developer Training For Beginners
10 pages
Real Time Systems Lab: Handling Shared Resources
No ratings yet
Real Time Systems Lab: Handling Shared Resources
14 pages
MI4 - Operator Panel
No ratings yet
MI4 - Operator Panel
43 pages
Digital Multimeter NJU9210 Clampmeter Ce05006
No ratings yet
Digital Multimeter NJU9210 Clampmeter Ce05006
23 pages
Od 432387881760619100
No ratings yet
Od 432387881760619100
6 pages