Multimod 1

The document discusses the use of deep learning and multimodal models in music information retrieval (MIR), emphasizing the importance of analyzing audio alongside non-audio modalities such as text and images. It highlights existing research on various music-related tasks and proposes future directions for enhancing machine intelligence in music through deep multimodal learning. Key challenges include developing modality-specific modules and effective fusion strategies to improve representation and retrieval performance.

Uploaded by

Nissa Liane

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views1 page

Multimod 1

Uploaded by

Nissa Liane

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

DEEP LEARNING AND MULTIMODAL MODELS FOR

MUSIC INFORMATION RETRIEVAL

Ilaria Manco, Emmanouil Benetos, George Fazekas

Centre for Digital Music, Queen Mary University of London

Overview
Research on music-related tasks focusses on techniques to analyse audio content. However, music is experienced in a multimodal way and information about music
is often conveyed through non-audio modalities (images, text, video, metadata). These can be exploited to enhance the performance of existing music
information retrieval (MIR) tasks or solve new multimodal challenges (mapping, retrieval, etc.).

Deep multimodal learning (DML) extends the ability of deep neural network to automatically learn hierarchical and increasingly more abstract representations of
the input data by leveraging supplementary and complementary information provided by different data modalities with the aim of building a richer representation.

Deep multimodal architectures have successfully been employed to improve performance in speech recognition, emotion detection in videos, automatic image
captioning, activity recognition, multimedia content indexing and retrieval [1], but have only rarely been exploited to enhance machine intelligence in music-
related tasks.

Related Work Research Directions

Music genre classification using audio tracks, text reviews and cover Identifying modality-specific modules that preserve inter- and intra-
art images [2]. modality correlations.

Cold-start music recommendation by combining text and audio with Investigating fusion strategies which employ an attention mechanism
user feedback data [3]. to learn useful shared modality representations by extracting salient
features [6].
Music emotion recognition using audio with tags or images [4].
Exploring deep transfer learning in a multimodal setting, especially
Cross-modal music retrieval by embedding lyrics, song audio and when one of the domains is characterised by noisy or missing data [7].
artist IDs into the same vector space [5].

Multimodal representation: joint (vectors which encode modality-invariant

semantics) or coordinated (vectors which preserve inter-modality correlations)?
Two main challenges:
Devising a fusion strategy: early or late fusion?

Example of a Multimodal Architecture

Convolutional neural network (CNN)-based Long short-term memory (LSTM)-

module for modality 1 (e.g. spectrograms) based module for modality 2 (e.g. text)

Fusion module Shared representation

input output

Encoder-decoder fusion
module

References
[1] Baltrušaitis T. et al. “Multimodal machine learning: A survey and taxonomy.” IEEE Transactions on Pattern Analysis and Machine Intelligence. 41.2: 423-443, 2018.
[2] Oramas S. et al. “Multimodal deep learning for music genre classification.” Transactions of the International Society for Music Information Retrieval. 1 (1): 4-21, 2018.
[3] Oramas S. et al. “A deep multimodal approach for cold-start music recommendation.” Proceedings of the 2nd Workshop on Deep Learning for Recommender Systems. ACM, 2017.
[4] Kim YE. et al. “Music emotion recognition: A state of the art review." Proceedings of ISMIR: 937-952, 2010.
[5] Watanabe K., Goto M. “Query-by-Blending: a Music Exploration System Blending Latent Vector Representations of Lyric Word, Song Audio, and Artist.” Proceedings of ISMIR: 144-151, 2019.
[6] Huang F. et al. “Learning joint multimodal representation with adversarial attention networks.” 2018 ACM Multimedia Conference on Multimedia Conference. ACM 2018.
[7] Kim, Jaehun, et al. "One deep music representation to rule them all? A comparative analysis of different representation learning strategies." Neural Computing and Applications: 1-27, 2018

Multimodel Deep Learning
No ratings yet
Multimodel Deep Learning
92 pages
Ying Ding, Ronald Rousseau, Dietmar Wolfram - Measuring Scholarly Impact - Methods and Practice (2014, Springer)
No ratings yet
Ying Ding, Ronald Rousseau, Dietmar Wolfram - Measuring Scholarly Impact - Methods and Practice (2014, Springer)
351 pages
A Survey of Multimodal Hybrid Deep Learning For Computer Vision
No ratings yet
A Survey of Multimodal Hybrid Deep Learning For Computer Vision
28 pages
Multimodal Deep Learning: Seminar Report On
No ratings yet
Multimodal Deep Learning: Seminar Report On
34 pages
A Survey On Deep Multimodal Learning For Computer Vision Advances, Trends, Applications, and Datasets
No ratings yet
A Survey On Deep Multimodal Learning For Computer Vision Advances, Trends, Applications, and Datasets
32 pages
Okay 2
No ratings yet
Okay 2
138 pages
Emotion Classification For Musical Data Using Deep Learning Techniques
No ratings yet
Emotion Classification For Musical Data Using Deep Learning Techniques
8 pages
Seminar 2
No ratings yet
Seminar 2
34 pages
One Deep Music Representation To Rule Them All? A Comparative Analysis of Different Representation Learning Strategies
No ratings yet
One Deep Music Representation To Rule Them All? A Comparative Analysis of Different Representation Learning Strategies
27 pages
Musical Genre Classification Using Advanced Audio Analysis and Deep Learning Techniques
No ratings yet
Musical Genre Classification Using Advanced Audio Analysis and Deep Learning Techniques
11 pages
(2504.00837) A Survey On Music Generation From Single-Modal, Cross-Modal and Multi-Modal Perspectives
No ratings yet
(2504.00837) A Survey On Music Generation From Single-Modal, Cross-Modal and Multi-Modal Perspectives
53 pages
Abdu 2021
No ratings yet
Abdu 2021
23 pages
Combining Visual and Acoustic Features For Music G
No ratings yet
Combining Visual and Acoustic Features For Music G
38 pages
Deep BiDirec Transformers-Base Masked Predictive
No ratings yet
Deep BiDirec Transformers-Base Masked Predictive
17 pages
Multi Model
No ratings yet
Multi Model
36 pages
Final Project
No ratings yet
Final Project
27 pages
ISMIR 2019 Tutorial - Waveform-Based Music Processing With Deep Learning
No ratings yet
ISMIR 2019 Tutorial - Waveform-Based Music Processing With Deep Learning
152 pages
Multimodal Learning
No ratings yet
Multimodal Learning
29 pages
Sensors 23 02381 v2
No ratings yet
Sensors 23 02381 v2
16 pages
Music Deep Learning Deep Learning Methods For Music Signal ProcessingA Review of The State-Of-The-Art
No ratings yet
Music Deep Learning Deep Learning Methods For Music Signal ProcessingA Review of The State-Of-The-Art
22 pages
The Evolution of 2024 Multimodal Model Architectures
No ratings yet
The Evolution of 2024 Multimodal Model Architectures
30 pages
Multimodal Machine Learning: A Survey and Taxonomy: Tadas Baltru Saitis, Chaitanya Ahuja, and Louis-Philippe Morency
No ratings yet
Multimodal Machine Learning: A Survey and Taxonomy: Tadas Baltru Saitis, Chaitanya Ahuja, and Louis-Philippe Morency
20 pages
23 - Multimodal Recommended Systems
No ratings yet
23 - Multimodal Recommended Systems
14 pages
2021 Deep Learning Audio Book
No ratings yet
2021 Deep Learning Audio Book
38 pages
Recent Advances and Trends in Multimodal Deep Learning A Review
No ratings yet
Recent Advances and Trends in Multimodal Deep Learning A Review
35 pages
Cross-Modal Variational Auto-Encoder For Content-Based Micro-Video Background Music Recommendation
No ratings yet
Cross-Modal Variational Auto-Encoder For Content-Based Micro-Video Background Music Recommendation
14 pages
Deep Multimodal Representation Learning A Survey
No ratings yet
Deep Multimodal Representation Learning A Survey
22 pages
Deepsetfusion
No ratings yet
Deepsetfusion
10 pages
Research On Music Classification Technology Based
No ratings yet
Research On Music Classification Technology Based
13 pages
The Implementation of A Proposed Deep-Learning Alg
No ratings yet
The Implementation of A Proposed Deep-Learning Alg
13 pages
Deep Cross-Modal Audio-Visual Generation: Lele Chen Sudhanshu Srivastava
No ratings yet
Deep Cross-Modal Audio-Visual Generation: Lele Chen Sudhanshu Srivastava
9 pages
Fams 05 00044
No ratings yet
Fams 05 00044
9 pages
Deep Learning and Music Adversaries
No ratings yet
Deep Learning and Music Adversaries
13 pages
Music Generation With NLP-1
No ratings yet
Music Generation With NLP-1
15 pages
Computational Intelligence and Neuroscience - 2022 - Qian - A Multi Modal Convolutional Neural Network Model For
No ratings yet
Computational Intelligence and Neuroscience - 2022 - Qian - A Multi Modal Convolutional Neural Network Model For
10 pages
Universal Network
No ratings yet
Universal Network
18 pages
NOTA: Multimodal Music Notation Understanding For Visual Large Language Model
No ratings yet
NOTA: Multimodal Music Notation Understanding For Visual Large Language Model
16 pages
2024 Progressive - Fusion - Network - With - Mixture - of - Experts - For - Multimodal - Sentiment - Analysis
No ratings yet
2024 Progressive - Fusion - Network - With - Mixture - of - Experts - For - Multimodal - Sentiment - Analysis
8 pages
Bridging Music and Image Via Cross-Modal Ranking Analysis: Senior Member, IEEE Member, IEEE Fellow, IEEE
No ratings yet
Bridging Music and Image Via Cross-Modal Ranking Analysis: Senior Member, IEEE Member, IEEE Fellow, IEEE
13 pages
cmmr2021 24
No ratings yet
cmmr2021 24
10 pages
Deep Learning Neural Networks For Music Information Retrieval
No ratings yet
Deep Learning Neural Networks For Music Information Retrieval
4 pages
Emotion Report
No ratings yet
Emotion Report
9 pages
ArcGIS Training Manual Ed2
No ratings yet
ArcGIS Training Manual Ed2
108 pages
Emotion Based Music Recommendation System Using Deep Learning Model
No ratings yet
Emotion Based Music Recommendation System Using Deep Learning Model
6 pages
Emotional Based Music Recommendation System Using Wearable Physiological Sensors
No ratings yet
Emotional Based Music Recommendation System Using Wearable Physiological Sensors
6 pages
Nipsdlufl10 MultimodalDeepLearning
No ratings yet
Nipsdlufl10 MultimodalDeepLearning
9 pages
IRJET V6I340320190826 49615 bg0qqz Libre
No ratings yet
IRJET V6I340320190826 49615 bg0qqz Libre
6 pages
1 s2.0 S2590005624000146 Main
No ratings yet
1 s2.0 S2590005624000146 Main
9 pages
Deep Learning Based Music Recommendation Systems: A Review of Algorithms and Techniques
No ratings yet
Deep Learning Based Music Recommendation Systems: A Review of Algorithms and Techniques
7 pages
Music Emotion Recognition System
No ratings yet
Music Emotion Recognition System
3 pages
The Challenges of Music Deep Learning For Traditional Music
No ratings yet
The Challenges of Music Deep Learning For Traditional Music
5 pages
425 17.face Emotion Based Music Detection System
No ratings yet
425 17.face Emotion Based Music Detection System
4 pages
WIMP2017 Martinez-RamirezReiss
No ratings yet
WIMP2017 Martinez-RamirezReiss
4 pages
Lit Review1
No ratings yet
Lit Review1
2 pages
Predictive Maintenance Using Machine Learning
No ratings yet
Predictive Maintenance Using Machine Learning
3 pages
Multimodal Deep Learning
No ratings yet
Multimodal Deep Learning
21 pages
QMG Vae-2
No ratings yet
QMG Vae-2
3 pages
Multimodal Fusion Research Papers Survey
No ratings yet
Multimodal Fusion Research Papers Survey
1 page
Prabharoop Interim Report
No ratings yet
Prabharoop Interim Report
4 pages
New Final Poster
No ratings yet
New Final Poster
1 page
The Emergence of Deep Learning: New Opportunities For Music and Audio Technologies
No ratings yet
The Emergence of Deep Learning: New Opportunities For Music and Audio Technologies
2 pages
Mysql
No ratings yet
Mysql
3 pages
CCD CH 3 & 4 Notes
No ratings yet
CCD CH 3 & 4 Notes
30 pages
Unit-4 - Cloud Storage and Database Services
No ratings yet
Unit-4 - Cloud Storage and Database Services
88 pages
Virtual HR - Report
No ratings yet
Virtual HR - Report
84 pages
Data Science and AI
No ratings yet
Data Science and AI
3 pages
CSS Unit-2
No ratings yet
CSS Unit-2
11 pages
Java Project Bank
No ratings yet
Java Project Bank
49 pages
Project Proposal
No ratings yet
Project Proposal
3 pages
14 DeltaLake
No ratings yet
14 DeltaLake
72 pages
Cloud Computing Final Report
No ratings yet
Cloud Computing Final Report
18 pages
Sun Dbms QB
No ratings yet
Sun Dbms QB
3 pages
Paper 17881
No ratings yet
Paper 17881
6 pages
COnfusion and Diffusion
No ratings yet
COnfusion and Diffusion
4 pages
Anomaly Detection For Cybersecurity of The Substations
No ratings yet
Anomaly Detection For Cybersecurity of The Substations
12 pages
Natural Language Processing
No ratings yet
Natural Language Processing
28 pages
Advances in Natural Language Processing - A Survey of Current Research Trends, Development Tools and Industry Ap..
No ratings yet
Advances in Natural Language Processing - A Survey of Current Research Trends, Development Tools and Industry Ap..
4 pages
Designing A Database
No ratings yet
Designing A Database
16 pages
SLR Ocr
No ratings yet
SLR Ocr
28 pages
Fifty Years of Information Management
No ratings yet
Fifty Years of Information Management
27 pages
T AIA 901 - Project
No ratings yet
T AIA 901 - Project
11 pages
Aman Patel Resume
No ratings yet
Aman Patel Resume
2 pages
Final Proposal - Updated
No ratings yet
Final Proposal - Updated
7 pages
Joao Vitor Resume22
No ratings yet
Joao Vitor Resume22
2 pages
Applications of Data Mining in E-Governance: A Case Study of Bhoomi Project
No ratings yet
Applications of Data Mining in E-Governance: A Case Study of Bhoomi Project
2 pages
Transportation and Logistics Data Lake Ra
No ratings yet
Transportation and Logistics Data Lake Ra
1 page
QB DM-SQL
No ratings yet
QB DM-SQL
4 pages
ODBC Vs JDBC
No ratings yet
ODBC Vs JDBC
3 pages
Visual Word: Unlocking the Power of Image Understanding
From Everand
Visual Word: Unlocking the Power of Image Understanding
Fouad Sabry
No ratings yet
Computer Audition: Fundamentals and Applications
From Everand
Computer Audition: Fundamentals and Applications
Fouad Sabry
No ratings yet