0% found this document useful (0 votes)

13 views9 pages

Model Usage

Uploaded by

rahul wankhade

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views9 pages

Model Usage

Uploaded by

rahul wankhade

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

https://www.nitinkapse.com/ https://nichethyself.

com/

Here’s a table listing various popular machine learning models and frameworks, along with their
primary usage in fields such as audio, vision, language processing, and more:

Model/Framework Primary Usage Domain

Whisper Speech recognition, Audio (Speech-to-Text)

transcription

CLIP Image and text alignment, zero- Vision & Language

shot learning

GPT (Generative Pre-trained Text generation, language Language Processing

Transformer) understanding

BERT Text classification, question Language Processing

answering

DALL·E Image generation from text Vision & Text

descriptions

ViT (Vision Transformer) Image classification, object Vision

detection

YOLO (You Only Look Once) Real-time object detection Vision (Computer
Vision)

VQ-VAE-2 Image generation, compression Vision

StyleGAN High-quality image generation Vision (Image

Synthesis)

Stable Diffusion Text-to-image generation, Vision & Text

artistic creation

Wav2Vec 2.0 Speech recognition, audio Audio (Speech-to-Text)

processing
https://www.nitinkapse.com/ https://nichethyself.com/

DeepSpeech Automatic speech recognition Audio

T5 (Text-to-Text Transfer Text generation, Language Processing

Transformer) summarization, translation

PaLM Text generation, understanding, Language Processing

multilingual tasks

OpenAI Codex Code generation, code Programming/Code

completion

Tacotron Speech synthesis (Text-to- Audio (Speech

Speech) Synthesis)

WavLM Speech enhancement, speech Audio

recognition

LLaMA Language generation and Language Processing

comprehension

OPT (Open Pretrained Language tasks, text Language Processing

Transformer) generation

DeepLab Image segmentation Vision (Computer

Vision)

ResNet Image classification, object Vision

detection

VGG Image classification Vision

CycleGAN Image-to-image translation Vision

(e.g., style transfer)

BART Text summarization, machine Language Processing

translation
https://www.nitinkapse.com/ https://nichethyself.com/

Swin Transformer Image classification, object Vision

detection

TransUNet Medical image segmentation Vision (Medical

Imaging)

BigGAN High-resolution image synthesis Vision

OpenAI CLIP Multi-modal learning (image Vision & Text

and text)

FastSpeech Text-to-Speech synthesis Audio (Speech

Synthesis)

Reformer Efficient Transformer for long Language Processing

text generation

SAM (Segment Anything Object segmentation in images Vision (Object

Model) Segmentation)

SEER Self-supervised image learning, Vision

classification

Key Insights:

● Audio Models: Whisper, DeepSpeech, Wav2Vec 2.0, and Tacotron are widely used for
tasks involving speech recognition, transcription, and synthesis.
● Vision Models: YOLO, ResNet, ViT, and StyleGAN dominate in object detection,
classification, and image generation tasks.
● Language Models: GPT, BERT, and T5 focus on text generation, understanding, and
summarization.
● Multi-modal Models: CLIP, DALL·E, and Stable Diffusion work across both text and
vision domains, handling tasks such as image generation from text or aligning images
and text.

These models are designed for specialized tasks, but some of them, like GPT or CLIP, have a
broader range of applications across multiple domains.
https://www.nitinkapse.com/ https://nichethyself.com/

Model/Framework Primary Usage Domain

Whisper Speech recognition, transcription Audio (Speech-to-Text)

CLIP Image and text alignment, zero- Vision & Language

shot learning

GPT (Generative Pre-trained Text generation, language Language Processing

Transformer) understanding

Claude 1 Conversational AI, safe Language Processing

language generation

Claude 2 Advanced conversational AI, text Language Processing

understanding

Databricks Dolly Fine-tuned language model for Language Processing

enterprise applications

BERT Text classification, question Language Processing

answering

DALL·E Image generation from text Vision & Text

descriptions

ViT (Vision Transformer) Image classification, object Vision

detection

YOLO (You Only Look Once) Real-time object detection Vision (Computer
Vision)

VQ-VAE-2 Image generation, compression Vision

https://www.nitinkapse.com/ https://nichethyself.com/

StyleGAN High-quality image generation Vision (Image

Synthesis)

Stable Diffusion Text-to-image generation, Vision & Text

artistic creation

Wav2Vec 2.0 Speech recognition, audio Audio (Speech-to-Text)

processing

DeepSpeech Automatic speech recognition Audio

T5 (Text-to-Text Transfer Text generation, summarization, Language Processing

Transformer) translation

PaLM Text generation, understanding, Language Processing

multilingual tasks

OpenAI Codex Code generation, code Programming/Code

completion

Tacotron Speech synthesis (Text-to- Audio (Speech

Speech) Synthesis)

WavLM Speech enhancement, speech Audio

recognition

LLaMA Language generation and Language Processing

comprehension

OPT (Open Pretrained Language tasks, text generation Language Processing

Transformer)

DeepLab Image segmentation Vision (Computer

Vision)
https://www.nitinkapse.com/ https://nichethyself.com/

ResNet Image classification, object Vision

detection

VGG Image classification Vision

CycleGAN Image-to-image translation (e.g., Vision

style transfer)

BART Text summarization, machine Language Processing

translation

Swin Transformer Image classification, object Vision

detection

TransUNet Medical image segmentation Vision (Medical

Imaging)

BigGAN High-resolution image synthesis Vision

OpenAI CLIP Multi-modal learning (image and Vision & Text

text)

FastSpeech Text-to-Speech synthesis Audio (Speech

Synthesis)

Reformer Efficient Transformer for long Language Processing

text generation

SAM (Segment Anything Object segmentation in images Vision (Object

Model) Segmentation)

SEER Self-supervised image learning, Vision

classification

Databricks Lakehouse AI AI and machine learning for Enterprise AI

enterprise data lakehouse
https://www.nitinkapse.com/ https://nichethyself.com/

Key Additions:

● Claude models, developed by Anthropic, focus on conversational AI with an emphasis

on safety and steering language generation.
● Databricks Dolly is fine-tuned for enterprise applications, leveraging Databricks' cloud
platform to provide business use cases for AI.
● Databricks Lakehouse AI offers models specifically designed for enterprise-level AI
and machine learning, integrated with the Lakehouse architecture for handling large-
scale data.

Here’s a list of models and frameworks designed for reading and extracting tabular data from
PDFs, images, or scanned documents. These models utilize a combination of OCR (Optical
Character Recognition) and deep learning techniques for parsing structured data like tables.

Model/Framework Primary Usage Domain

TabNet Interpretable deep learning model for Tabular Data

tabular data

Camelot Extracting tables from PDFs PDF/Table Extraction

pdfplumber Parsing and extracting tables and PDF/Table Extraction

text from PDFs

Tesseract OCR OCR for extracting text and simple OCR for Images & PDFs
tables from images/PDFs

PaddleOCR OCR for table and text extraction, OCR for Images & PDFs
supports multi-language

TableNet Extracting tabular data from Table Detection in

document images Images

DeepDeSRT Detecting and recognizing table Table Detection in

structures in scanned documents PDFs/Images
https://www.nitinkapse.com/ https://nichethyself.com/

DocTR (Document Text OCR for detecting and recognizing OCR & Document
Recognition) structured text like tables in Analysis
documents

Adobe PDF Extract API Extracting structured data including PDF/Table Extraction
tables from PDFs

PyMuPDF (Fitz) Extracting content (text, tables) from PDF Parsing

PDF documents

Tabula Extracting tables from PDFs into PDF/Table Extraction

CSV/Excel

Keras-OCR OCR for detecting and extracting text OCR for Images
and tables from images

LayoutLM Pre-trained model for reading and Document

extracting structured data from Understanding/OCR
scanned documents

TrOCR (Transformer OCR model based on Transformer OCR for Documents

OCR) architecture for extracting text and
tables

Amazon Textract Automated text and table extraction OCR for PDFs & Images
from documents

Google Cloud Vision OCR with table detection capabilities OCR for Images & PDFs
API for scanned images

Overview of Popular Models:

1. Camelot, Tabula, pdfplumber: Focus on extracting tables from PDFs and converting
them into structured formats like CSV or Excel.
2. Tesseract OCR, PaddleOCR: Used for general OCR tasks like reading text and simple
tables from images or scanned documents.
3. TableNet, DeepDeSRT: Specifically designed to detect and extract tabular structures
in scanned documents or images.
https://www.nitinkapse.com/ https://nichethyself.com/

4. LayoutLM: Pre-trained language model focused on document understanding, useful

for recognizing structured data like tables in scanned documents.
5. Amazon Textract, Google Cloud Vision API: Cloud-based APIs for extracting text,
tables, and forms from documents.

These tools and models provide capabilities for converting unstructured data (like tables in
PDFs or images) into structured formats, making it easier to analyze and process the data
programmatically.

Please click on the link below to register for Generative AI workshop

https://forms.gle/PrzkmvYh5yvEWUKZ6

P2 Scope GR 11-June 2025 by Sirantwi
No ratings yet
P2 Scope GR 11-June 2025 by Sirantwi
20 pages
NPTEL
No ratings yet
NPTEL
183 pages
AI - Machine Learning Engineer Handbook
No ratings yet
AI - Machine Learning Engineer Handbook
136 pages
Class 6 Paper
100% (2)
Class 6 Paper
2 pages
Types of AI Models and Their Uses-PDF-Format
No ratings yet
Types of AI Models and Their Uses-PDF-Format
14 pages
Image Caption
No ratings yet
Image Caption
16 pages
AI 6SEM Notes
No ratings yet
AI 6SEM Notes
34 pages
Generative AI Roadmap
No ratings yet
Generative AI Roadmap
36 pages
Natural Language Processing Notes
No ratings yet
Natural Language Processing Notes
80 pages
Generative Ai and Large Language Models (LLMS) : Unit - 7
No ratings yet
Generative Ai and Large Language Models (LLMS) : Unit - 7
42 pages
Curriculum Computational Engineering and Networking PDF
No ratings yet
Curriculum Computational Engineering and Networking PDF
26 pages
Generative AI System Design Resources
No ratings yet
Generative AI System Design Resources
5 pages
Raspberry Pi-Based Ai System For Speech Transcription
No ratings yet
Raspberry Pi-Based Ai System For Speech Transcription
5 pages
Own Your AI - Tech Deck
No ratings yet
Own Your AI - Tech Deck
75 pages
Meeting Insights Summarisation Using Speech Recognition
No ratings yet
Meeting Insights Summarisation Using Speech Recognition
8 pages
Finxter OpenAI Glossary
No ratings yet
Finxter OpenAI Glossary
1 page
Naan Mudalvan
No ratings yet
Naan Mudalvan
68 pages
COMP9491 Week2 Deep - Learning 1
No ratings yet
COMP9491 Week2 Deep - Learning 1
66 pages
Unit 1 Intoduction To Generative AI
No ratings yet
Unit 1 Intoduction To Generative AI
8 pages
The Atlas of 50 Common AI Models
No ratings yet
The Atlas of 50 Common AI Models
72 pages
Week 1 - Introduction To SDGAI
No ratings yet
Week 1 - Introduction To SDGAI
36 pages
DLunit 5
No ratings yet
DLunit 5
17 pages
Unit3sem7 Generative Ai
No ratings yet
Unit3sem7 Generative Ai
41 pages
Lec25 Architectures
No ratings yet
Lec25 Architectures
52 pages
Pranshi Singla IX C AI Activity 1
No ratings yet
Pranshi Singla IX C AI Activity 1
24 pages
Ijimai 9 1 16
No ratings yet
Ijimai 9 1 16
36 pages
GenerativeAI Projects
100% (2)
GenerativeAI Projects
46 pages
13-Gradient Descent With Momentum-08!08!2024
No ratings yet
13-Gradient Descent With Momentum-08!08!2024
26 pages
Session 4 Generative AI Applications
No ratings yet
Session 4 Generative AI Applications
26 pages
Chat GPT Is Not All You Need Paper Review
No ratings yet
Chat GPT Is Not All You Need Paper Review
31 pages
ISSCC2020-01 Digest
No ratings yet
ISSCC2020-01 Digest
34 pages
Computers 2024 25
No ratings yet
Computers 2024 25
31 pages
Rushi - Mad Microproject - Removed
No ratings yet
Rushi - Mad Microproject - Removed
26 pages
An Overview of Vision Transformers For Image Processing A Survey
No ratings yet
An Overview of Vision Transformers For Image Processing A Survey
17 pages
NeurIPS 2023 Openagi When LLM Meets Domain Experts Paper Datasets - and - Benchmarks
No ratings yet
NeurIPS 2023 Openagi When LLM Meets Domain Experts Paper Datasets - and - Benchmarks
30 pages
B.tech. 3rd Yr CSE (IOT) 2022 23 Revised
No ratings yet
B.tech. 3rd Yr CSE (IOT) 2022 23 Revised
32 pages
شات القانزن السعودي
No ratings yet
شات القانزن السعودي
19 pages
(RMIT Hack-A-Venture 2024) AI Workshop
No ratings yet
(RMIT Hack-A-Venture 2024) AI Workshop
40 pages
Fiat 500 2008 Blue Me Kitabı
No ratings yet
Fiat 500 2008 Blue Me Kitabı
80 pages
OpenAI Glossary
No ratings yet
OpenAI Glossary
1 page
Unit - 5 DL
No ratings yet
Unit - 5 DL
17 pages
Unit-5 (DL For Different Domains, Role of GPUs and DL Frameworks)
No ratings yet
Unit-5 (DL For Different Domains, Role of GPUs and DL Frameworks)
15 pages
Chapter Two: Interaction Design
No ratings yet
Chapter Two: Interaction Design
32 pages
Mini Project Report
No ratings yet
Mini Project Report
31 pages
UNIT-5 Deep Learning Applications: What Is Natural Language Processing?
No ratings yet
UNIT-5 Deep Learning Applications: What Is Natural Language Processing?
12 pages
Gradient Flow Trend 2023 Report Final
No ratings yet
Gradient Flow Trend 2023 Report Final
16 pages
The Julius Book: Akinobu LEE May 17, 2010
No ratings yet
The Julius Book: Akinobu LEE May 17, 2010
67 pages
Mathworks - Yann Debray - GPT-4o
No ratings yet
Mathworks - Yann Debray - GPT-4o
17 pages
Visionllama
No ratings yet
Visionllama
17 pages
Deep Learning Lab Miniproject
No ratings yet
Deep Learning Lab Miniproject
9 pages
NLP Survey - Presentation
No ratings yet
NLP Survey - Presentation
31 pages
College Documentation - Automated Image Captioning
No ratings yet
College Documentation - Automated Image Captioning
26 pages
3-2 Project Report
No ratings yet
3-2 Project Report
6 pages
Presentation On Voice Controlled Car: Presentation by Department of Mechanical Engineering MLR Instiute of Technology
No ratings yet
Presentation On Voice Controlled Car: Presentation by Department of Mechanical Engineering MLR Instiute of Technology
14 pages
Papers With Code v2
No ratings yet
Papers With Code v2
15 pages
Developing Accessible Speech Technology With Users With Dysarthric Speech
No ratings yet
Developing Accessible Speech Technology With Users With Dysarthric Speech
9 pages
Secure Smart Door Lock System Based On A
No ratings yet
Secure Smart Door Lock System Based On A
8 pages
Bithack Tac
No ratings yet
Bithack Tac
3 pages
Voice Based Email System
No ratings yet
Voice Based Email System
6 pages
Phil Wang Repos
No ratings yet
Phil Wang Repos
10 pages
Blue Eyes Technology
No ratings yet
Blue Eyes Technology
12 pages
AI Tools by Specialized Area
No ratings yet
AI Tools by Specialized Area
10 pages
Speech To Text Conversion
No ratings yet
Speech To Text Conversion
7 pages
Abhishek Das CV
No ratings yet
Abhishek Das CV
8 pages
Arduino Entegreli Yapay Zeka Destekli Hijack Furby Asistan
No ratings yet
Arduino Entegreli Yapay Zeka Destekli Hijack Furby Asistan
6 pages
Genaitable
No ratings yet
Genaitable
3 pages
Popular AI Tools and Platforms
No ratings yet
Popular AI Tools and Platforms
3 pages
Automatic Image Caption Generation System
No ratings yet
Automatic Image Caption Generation System
4 pages
21MDSWE164 Lab 1 DL
No ratings yet
21MDSWE164 Lab 1 DL
4 pages
Pronouncur: An Urdu Pronunciation Lexicon Generator: Haris Bin Zia, Agha Ali Raza, Awais Athar
No ratings yet
Pronouncur: An Urdu Pronunciation Lexicon Generator: Haris Bin Zia, Agha Ali Raza, Awais Athar
5 pages
Sign Language Recognition For Deaf and Dumb People Using Android Environment
No ratings yet
Sign Language Recognition For Deaf and Dumb People Using Android Environment
6 pages
Fraud Calls Detection Software
No ratings yet
Fraud Calls Detection Software
4 pages
03 GenAI Intro
No ratings yet
03 GenAI Intro
13 pages
Ai ML DL
No ratings yet
Ai ML DL
4 pages
AI Transformers Practical Examples Notes
No ratings yet
AI Transformers Practical Examples Notes
2 pages
nlfynx7RfS0IZ9YGOtls - Some Core Concepts
No ratings yet
nlfynx7RfS0IZ9YGOtls - Some Core Concepts
6 pages
Nidhish Resume NC
No ratings yet
Nidhish Resume NC
1 page
Research Paper of Generating Caption From Image
No ratings yet
Research Paper of Generating Caption From Image
5 pages
Deep Learning Project 2025
No ratings yet
Deep Learning Project 2025
2 pages
AI Trends of May 2023 You Need To Know by Gonzalo Recio Medium
No ratings yet
AI Trends of May 2023 You Need To Know by Gonzalo Recio Medium
1 page
Voice To Text
No ratings yet
Voice To Text
2 pages
10 Free Ai Websites
No ratings yet
10 Free Ai Websites
1 page
Summary IBM GenAI
No ratings yet
Summary IBM GenAI
1 page
Generative AI
No ratings yet
Generative AI
2 pages
04 NLP Computer Vision Systems
No ratings yet
04 NLP Computer Vision Systems
1 page
Forensic Cop Journal 2 (2) 2009-Standard Operating Procedure of Audio Forensic
No ratings yet
Forensic Cop Journal 2 (2) 2009-Standard Operating Procedure of Audio Forensic
7 pages
Ai Icn 16-Nov-2023
No ratings yet
Ai Icn 16-Nov-2023
1 page
Optical Character Recognition: Fundamentals and Applications
From Everand
Optical Character Recognition: Fundamentals and Applications
Fouad Sabry
No ratings yet
Optical Character Recognition: Unlocking the Power of Computer Vision for Optical Character Recognition
From Everand
Optical Character Recognition: Unlocking the Power of Computer Vision for Optical Character Recognition
Fouad Sabry
No ratings yet
My School Essay in Telugu
100% (1)
My School Essay in Telugu
11 pages