Publications

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval
Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee, David Harwath
International Conference on Acoustics, Speech, & Signal Processing (ICASSP) 2023

arXiv

SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language Model
Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Layne Berry, Hung-yi Lee, David Harwath
IEEE Spoken Language Technology Workshop (SLT) 2022

arXiv code blog poster present@JSALT'22

Theme Transformer: Symbolic Music Generation with Theme-Conditioned Transformer
Yi-Jen Shih, Shih-Lun Wu, Frank Zalkow, Meinard Müller, Yi-Hsuan Yang
IEEE Transactions on Multimedia (TMM) 2022

arXiv code demo blog talk@MILA slides@MILA