Data Platform Engineer - TextSpeech and Language Models

BharatGen is seeking a Data Platform Engineer to develop scalable tools and pipelines for processing large-scale, multilingual datasets essential for AI model training. The role involves building data pipelines, ensuring data governance, and collaborating with researchers to enhance India's AI ecosystem. Candidates should have a background in computer science or data engineering, with experience in distributed systems and data pipeline development.

Uploaded by

abijeet

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views3 pages

Data Platform Engineer - TextSpeech and Language Models

Uploaded by

abijeet

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Document No: TIH-IoT/2024-12/HR/Technical/Recruitad/075

Data Platform Engineer - Text/Speech and Language Models

Job Summary:

BharatGen is on a mission to create AI that truly represents the diversity, culture, and unique context of India. At the
heart of this mission lies the need for robust, scalable infrastructure to build multilingual and multimodal datasets that
power foundational AI models. We’re seeking a skilled Data Platform Engineer to build scalable tools, platforms, and
pipelines tailored for processing large-scale, multilingual, multimodal datasets critical for foundational AI models.

In this role, you will build scalable data pipelines to ingest, transform, and prepare data from diverse sources—text,
speech, images, and video—making it ready for Generative AI model training. Your work will involve developing and
managing the underlying platform while addressing challenges like governance, security, observability, lineage, and
scalability. The outcomes of your work will include efficient tools for data processing, a reliable data platform, and
high-quality datasets tailored to the evolving needs of large-scale AI and LLM training.

Collaborating closely with researchers and ML engineers, you will play a pivotal role in enabling BharatGen to deliver
state-of-the-art AI models, contributing to the advancement of India’s AI ecosystem through innovative data
engineering solutions.

Key Responsibilities:

● Design and Build Scalable Platforms: Develop distributed infrastructure for ingesting, processing, and
transforming diverse datasets (text, speech, images, video) at terabyte to petabyte scale.
● Develop Robust Data Pipelines: Create reliable, scalable pipelines to prepare datasets for Generative AI and LLM
training.
● Implement Governance and Observability: Build frameworks for data lineage, monitoring, and access control to
ensure data quality and operational reliability.
● Optimize Performance and Cost: Enhance platform performance and resource utilization using cost-effective
strategies, including GPU-accelerated preprocessing.
● Collaborate and Innovate: Work closely with researchers and ML engineers to adapt platforms and data
pipelines to evolving LLM requirements, addressing various data challenges.
● Drive Innovation: Stay updated on emerging tools, frameworks, and best practices to implement cutting-edge
solutions for large-scale dataset creation.

Minimum Qualifications and Experience:

1. Education:
● Bachelor’s or Master’s degree in Computer Science, Data Engineering, or a related field.
● [Preferred] Advanced degrees or certifications in Distributed Systems, Data Engineering, or Big Data technologies

2. Experience and Expertise:

● 3+ years of overall industry experience in engineering roles, demonstrating strong foundations in software
development, systems engineering, or related disciplines.
● 1+ years of specific hands-on experience in developing large-scale, distributed data pipelines and platforms,
preferably in high-performance AI or ML environments.
● Expertise in managing unstructured data (text, speech, or multimodal datasets) for high-performance use cases,
ideally in the context of LLM/AI datasets.
● Understanding of challenges in scalable data engineering, including ingestion, transformation, and storage
optimization for large-scale accelerated workflows.

Skills:
1. Technical:
● Proficiency in distributed systems and frameworks (e.g., Kafka, Ray, PySpark) for scalable data workflows.
● Exposure to end-to-end data lifecycle management, including DataOps.
● Strong programming skills in Python, Scala, or Go, with a focus on high-performance pipeline development. ●
Experience with building and optimizing data pipelines, including ETL processes, data modeling, and integration
into scalable workflows.
● Expertise in data scraping, crawling frameworks, and modern dataset development techniques such as synthetic
data generation techniques.
● Experience with cloud platforms (AWS, GCP, Azure) and container orchestration (Docker, Kubernetes). ●
Deep understanding of data platform design, including data architecture, metadata tracking, data lineage,
observability, monitoring, and scalability best practices.
● Familiarity with Infrastructure-as-Code tools (e.g., Terraform, CloudFormation), CI/CD pipelines, relational/NoSQL
databases, and GPU-accelerated workflows.
● Familiarity with visualization and monitoring tools for lifecycle management and pipeline performance tracking.

2. Soft Skills:
● Adaptability and innovation in fast-paced, dynamic environments.
● Strong collaboration skills for interdisciplinary teamwork.
● Proactive problem-solving and a growth mindset to thrive in a mission-driven organization.

Other terms:

● The position is contractual, full time in nature and subject to periodic performance reviews

Location of work:

● TIH-IoT, IIT Bombay Campus, Powai, Mumbai 400076

Senthilkumars CMM Programmer Kumars CMM Programmer
0% (1)
Senthilkumars CMM Programmer Kumars CMM Programmer
2 pages
Data Scientist + Agentic AI
No ratings yet
Data Scientist + Agentic AI
5 pages
Brausse SIGNA 1050fi ENG
No ratings yet
Brausse SIGNA 1050fi ENG
12 pages
Priya AIML Resumee
No ratings yet
Priya AIML Resumee
5 pages
Lakshmi Sampath Potluri AI ML Engineer
No ratings yet
Lakshmi Sampath Potluri AI ML Engineer
7 pages
AI Engineer JD
100% (1)
AI Engineer JD
1 page
Senior Data Scientist Role Overview
No ratings yet
Senior Data Scientist Role Overview
3 pages
Free Space Optics Link Design Project
100% (5)
Free Space Optics Link Design Project
63 pages
AIML Engineer (Trainee) - JD
No ratings yet
AIML Engineer (Trainee) - JD
3 pages
Data Science - Analyst Requirement
No ratings yet
Data Science - Analyst Requirement
20 pages
IterateAI Careers
No ratings yet
IterateAI Careers
4 pages
JD Data Engineer
No ratings yet
JD Data Engineer
1 page
Role Profile
No ratings yet
Role Profile
16 pages
Oracle ASM Load Balancing - Anthony Noriega
0% (1)
Oracle ASM Load Balancing - Anthony Noriega
48 pages
Scopeppt
No ratings yet
Scopeppt
10 pages
CSU Interactive JD - Full Stack & GEN AI Engineer
No ratings yet
CSU Interactive JD - Full Stack & GEN AI Engineer
5 pages
Mehdi RESUME
No ratings yet
Mehdi RESUME
8 pages
Job Description: Data Scientist
No ratings yet
Job Description: Data Scientist
4 pages
Válvula de Freio Safim
No ratings yet
Válvula de Freio Safim
12 pages
DA DE Intern ICT C A ActiveFence 1
No ratings yet
DA DE Intern ICT C A ActiveFence 1
4 pages
Devika.v ML
No ratings yet
Devika.v ML
7 pages
Supriya Data Engineer Resume
No ratings yet
Supriya Data Engineer Resume
4 pages
AI Engineer
No ratings yet
AI Engineer
3 pages
Data Engineer - Bangalore - Jio - Data Platform
No ratings yet
Data Engineer - Bangalore - Jio - Data Platform
3 pages
JD Data Engineer
No ratings yet
JD Data Engineer
3 pages
Abubakar Python Ai
No ratings yet
Abubakar Python Ai
4 pages
2company JobRoles
No ratings yet
2company JobRoles
4 pages
Aim L Data Engineer
No ratings yet
Aim L Data Engineer
4 pages
Join Us HashAI
No ratings yet
Join Us HashAI
4 pages
Data Engineer Rithick Bisher
No ratings yet
Data Engineer Rithick Bisher
5 pages
Data Engineer Bharat Forge (Kalyani Group)
No ratings yet
Data Engineer Bharat Forge (Kalyani Group)
2 pages
DE Gen AI JD
No ratings yet
DE Gen AI JD
2 pages
JD For AI ML
No ratings yet
JD For AI ML
2 pages
Job Description - Senior ML-Ops Engineer
No ratings yet
Job Description - Senior ML-Ops Engineer
2 pages
JD - Associate Data Engineer
No ratings yet
JD - Associate Data Engineer
2 pages
Prabhash Chandra Karan
No ratings yet
Prabhash Chandra Karan
5 pages
JD - LLM Data Analyst
No ratings yet
JD - LLM Data Analyst
3 pages
Pinakin Resume
No ratings yet
Pinakin Resume
3 pages
JD Data Science Intern ICS
No ratings yet
JD Data Science Intern ICS
3 pages
AI Engineer
No ratings yet
AI Engineer
2 pages
Senior AI and Data Engineer
No ratings yet
Senior AI and Data Engineer
2 pages
100% Remote // Data Engineer (L5)
No ratings yet
100% Remote // Data Engineer (L5)
2 pages
JOB-35918 - ML Engineer
No ratings yet
JOB-35918 - ML Engineer
3 pages
Job Description - Junior Data Engineer
No ratings yet
Job Description - Junior Data Engineer
2 pages
Full Time Machine Learning Engineer
No ratings yet
Full Time Machine Learning Engineer
2 pages
AI - ML Engineer
No ratings yet
AI - ML Engineer
2 pages
ML Placement
No ratings yet
ML Placement
6 pages
AI Engineer
No ratings yet
AI Engineer
3 pages
Job Description: Role: Industry Type
No ratings yet
Job Description: Role: Industry Type
2 pages
SR Data Engineer+ SCALA
No ratings yet
SR Data Engineer+ SCALA
2 pages
Senior AI Engineer
No ratings yet
Senior AI Engineer
1 page
AI Engineers - Internship Leads To Full Time - Ticking Minds
No ratings yet
AI Engineers - Internship Leads To Full Time - Ticking Minds
3 pages
11e42197-d0ac-484e-940b-c6da03952c3b
No ratings yet
11e42197-d0ac-484e-940b-c6da03952c3b
2 pages
MTX - Associate Machine Learning Engineer
No ratings yet
MTX - Associate Machine Learning Engineer
2 pages
Apriso WhitePaper How Next Gen MOM Can Drive
No ratings yet
Apriso WhitePaper How Next Gen MOM Can Drive
10 pages
JD - Sde Ai
No ratings yet
JD - Sde Ai
1 page
SNR Data Engineer #24-00017 in India
No ratings yet
SNR Data Engineer #24-00017 in India
1 page
Computer Science
No ratings yet
Computer Science
2 pages
Profolo Data Scientist JD
No ratings yet
Profolo Data Scientist JD
1 page
JD - ML Computer Vision
No ratings yet
JD - ML Computer Vision
2 pages
Vineeth Guptha
No ratings yet
Vineeth Guptha
1 page
JD - 12 Month Internship - GenAI RD Focused
No ratings yet
JD - 12 Month Internship - GenAI RD Focused
2 pages
Data Platform Lead - LivNSense
No ratings yet
Data Platform Lead - LivNSense
1 page
JD Azurede MFT 4+yrs
No ratings yet
JD Azurede MFT 4+yrs
1 page
Best 3D Modeling Software (Complete List) - 3D Tutorials
No ratings yet
Best 3D Modeling Software (Complete List) - 3D Tutorials
4 pages
Mastering Technology Transfer: From Invention To Innovation: George Vekinis
No ratings yet
Mastering Technology Transfer: From Invention To Innovation: George Vekinis
286 pages
2200 Manual Section 1
No ratings yet
2200 Manual Section 1
27 pages
Sri Siddhartha Academy of Higher Education
No ratings yet
Sri Siddhartha Academy of Higher Education
31 pages
Kormarine 2021 Exhibitor List
No ratings yet
Kormarine 2021 Exhibitor List
6 pages
Advanced Product Quality Planning
No ratings yet
Advanced Product Quality Planning
6 pages
Blue Coat Systems Reporter
100% (1)
Blue Coat Systems Reporter
251 pages
JOC Joint Operating Environment - DoD
No ratings yet
JOC Joint Operating Environment - DoD
76 pages
PCA82C250 / 251 CAN Transceiver: Application Note
No ratings yet
PCA82C250 / 251 CAN Transceiver: Application Note
24 pages
Learing
No ratings yet
Learing
95 pages
NBD8025R Ul
No ratings yet
NBD8025R Ul
1 page
Curso Fluoricon Ii
No ratings yet
Curso Fluoricon Ii
23 pages
EZ Voice User Manual
No ratings yet
EZ Voice User Manual
23 pages
02case Study Project Main Document March 2022 - CP Final 18042022
No ratings yet
02case Study Project Main Document March 2022 - CP Final 18042022
7 pages
1SDC001057G0201 - WP Ekip UP For Utility - EN
No ratings yet
1SDC001057G0201 - WP Ekip UP For Utility - EN
12 pages
Velocity - Python Coding Questions
No ratings yet
Velocity - Python Coding Questions
14 pages
Low-Temperature Heating and Cooling: Augustin Mouchot 1878 Universal Exhibition in Paris Sahara Frank Shuman
No ratings yet
Low-Temperature Heating and Cooling: Augustin Mouchot 1878 Universal Exhibition in Paris Sahara Frank Shuman
2 pages
Empowerment Technlogies 11
No ratings yet
Empowerment Technlogies 11
5 pages
Poster - Template For Postgraduate Business Dissertation Students
No ratings yet
Poster - Template For Postgraduate Business Dissertation Students
1 page
Order ID 5913242703-1
No ratings yet
Order ID 5913242703-1
1 page
Datasheet HWT-D2152-10-SIU
No ratings yet
Datasheet HWT-D2152-10-SIU
6 pages
0963 14012025115545
No ratings yet
0963 14012025115545
2 pages
Air Conditioner Abhijeet Urkude: Details Payment Information
No ratings yet
Air Conditioner Abhijeet Urkude: Details Payment Information
2 pages
How To Install PostgreSQL 11 On CentOS 7
No ratings yet
How To Install PostgreSQL 11 On CentOS 7
5 pages
Semester Registration Notice (July-Dec 2023 Semester) - FoC
No ratings yet
Semester Registration Notice (July-Dec 2023 Semester) - FoC
2 pages
Associate Systems Engineer (ASE) Candidate Role Play Brief: Format of Activity
No ratings yet
Associate Systems Engineer (ASE) Candidate Role Play Brief: Format of Activity
5 pages
Visio-OCC For Solar Power Rev2
No ratings yet
Visio-OCC For Solar Power Rev2
1 page
Gagan Resume
No ratings yet
Gagan Resume
2 pages