Search results for "audio-visual"

Hits ?▲	Authors	Title	Venue	Year	Link	Author keywords
11	Olivier Gillet, Slim Essid, Gaël Richard	On the Correlation of Automatic Audio and Visual Segmentations of Music Videos.	IEEE Trans. Circuits Syst. Video Technol.	2007	DBLP DOI BibTeX RDF
11	Matej Rojc, Tomaz Rotovnik, Miso Brus, Dusan Jan, Zdravko Kacic	Embodied Conversational Agents in Wizard-of-Oz and Multimodal Interaction Applications.	COST 2102 Workshop (Vietri)	2007	DBLP DOI BibTeX RDF	speech recognition, conversational agents, text-to-speech synthesis, speech-to-speech translation
11	Daniel Gatica-Perez, Dong Zhang 0001, Samy Bengio	Extracting information from multimedia meeting collections.	Multimedia Information Retrieval	2005	DBLP DOI BibTeX RDF	human interaction modeling, semantic, graphical models, meeting
11	Dusan Macho, Jaume Padrell, Alberto Abad, Climent Nadeu, Javier Hernando, John W. McDonough, Matthias Wölfel, Ulrich Klee, Maurizio Omologo, Alessio Brutti, Piergiorgio Svaizer, Gerasimos Potamianos, Stephen M. Chu	Automatic Speech Activity Detection, Source Localization, and Speech Recognition on the Chil Seminar Corpus.	ICME	2005	DBLP DOI BibTeX RDF
11	John R. Smith, David S. Doermann, Amarnath Gupta, Jonathan Goldstein, Uri Shaft, Nalini K. Ratha	Multimedia applications: beyond similarity searches.	CVDB	2005	DBLP DOI BibTeX RDF
11	Lina Peng, K. Selçuk Candan, Kyung Dong Ryu, Karam S. Chatha, Hari Sundaram	ARIA: an adaptive and programmable media-flow architecture for interactive arts.	ACM Multimedia	2004	DBLP DOI BibTeX RDF	multi-model art, tools for creating multimedia art, interactive
11	Regunathan Radhakrishnan, Ajay Divakaran, Ziyou Xiong	A time series clustering based framework for multimedia mining and summarization using audio features.	Multimedia Information Retrieval	2004	DBLP DOI BibTeX RDF	video summarization, time series analysis, audio classification
11	Samy Bengio	Multimodal Authentication Using Asynchronous HMMs.	AVBPA	2003	DBLP DOI BibTeX RDF
11	Kieron Messer, Josef Kittler, Barbara Levienaise-Obadia, William J. Christmas, Dimitri Koubaroulis	Generation of semantic cues for sports video annotation.	ICIP (3)	2001	DBLP DOI BibTeX RDF
11	Sascha Spors, Rudolf Rabenstein, Norbert Strobel	Joint audio-video object tracking.	ICIP (1)	2001	DBLP DOI BibTeX RDF
11	Ismail Haritaoglu, Alex Cozzi, David Koons, Myron Flickner, Dmitry N. Zotkin, Ramani Duraiswami, Yaser Yacoob	Attentive Toys.	ICME	2001	DBLP DOI BibTeX RDF
11	Yiqiang Chen, Wen Gao 0001, Zhaoqi Wang, Li Zuo	Speech Driven MPEG-4 Based Face Animation via Neural Network.	IEEE Pacific Rim Conference on Multimedia	2001	DBLP DOI BibTeX RDF
11	Jason P. A. Charlesworth, Philip N. Garner	Spoken content metadata and MPEG-7.	ACM Multimedia Workshops	2000	DBLP DOI BibTeX RDF	robust retrieval, spoken content, interoperability, MPEG-7, automatic speech recognition, spoken document retrieval
11	Leonardo Chiariglione	MPEG: Achievements and Future Projects.	ICMCS, Vol. 1	1999	DBLP DOI BibTeX RDF
11	Javad Peymanfard, Samin Heydarian, Ali Lashini, Hossein Zeinali, Mohammad Reza Mohammadi, Nasser Mozayani	A multi-purpose audio-visual corpus for multi-modal Persian speech recognition: The Arman-AV dataset.	Expert Syst. Appl.	2024	DBLP DOI BibTeX RDF
11	Shiqing Zhang, Yijiao Yang, Chen Chen, Xingnan Zhang, Qingming Leng, Xiaoming Zhao 0002	Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: A systematic review of recent advancements and future prospects.	Expert Syst. Appl.	2024	DBLP DOI BibTeX RDF
11	Sisi You, Yukun Zuo, Hantao Yao, Changsheng Xu	Incremental Audio-Visual Fusion for Person Recognition in Earthquake Scene.	ACM Trans. Multim. Comput. Commun. Appl.	2024	DBLP DOI BibTeX RDF
11	Yibo Zhang, Weiguo Lin, Junfeng Xu	Joint Audio-Visual Attention with Contrastive Learning for More General Deepfake Detection.	ACM Trans. Multim. Comput. Commun. Appl.	2024	DBLP DOI BibTeX RDF
11	Gülnaziye Bingöl, Simone Porcu, Alessandro Floris, Luigi Atzori	QoE Estimation of WebRTC-based Audio-visual Conversations from Facial and Speech Features.	ACM Trans. Multim. Comput. Commun. Appl.	2024	DBLP DOI BibTeX RDF
11	Dandan Zhu, Kun Zhu 0024, Weiping Ding 0001, Nana Zhang, Xiongkuo Min, Guangtao Zhai, Xiaokang Yang	MTCAM: A Novel Weakly-Supervised Audio-Visual Saliency Prediction Model With Multi-Modal Transformer.	IEEE Trans. Emerg. Top. Comput. Intell.	2024	DBLP DOI BibTeX RDF
11	Mengting Liu, Ying Zhou, Yuwei Wu, Feng Gao	Cogeneration of Innovative Audio-visual Content: A New Challenge for Computing Art.	Mach. Intell. Res.	2024	DBLP DOI BibTeX RDF
11	Yasuki Noguchi	Audio-Visual Fission Illusion and Individual Alpha Frequency: Perspective on Buergers and Noppeney (2022).	J. Cogn. Neurosci.	2024	DBLP DOI BibTeX RDF
11	Yasheng Sun, Wenqing Chu, Hang Zhou, Kaisiyuan Wang, Hideki Koike	AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation.	IEEE Access	2024	DBLP DOI BibTeX RDF
11	Jun Zhang 0030, Yi Xiao, Yizhuang Ding, Liuchen Chen, Aiguo Song	Interaction-Based Active Perception Method and Vibration-Audio-Visual Information Fusion for Asteroid Surface Material Identification.	IEEE Trans. Instrum. Meas.	2024	DBLP DOI BibTeX RDF
11	Yinsheng Li, Shaoshuai Guo, Maixia Fu	A new method of audio-visual environment emotion assessment based on range fusion decision.	Multim. Tools Appl.	2024	DBLP DOI BibTeX RDF
11	Kholoud Alwashmi, Georg F. Meyer, Fiona J. Rowe, Ryan Ward	Enhancing learning outcomes through multisensory integration: A fMRI study of audio-visual training in virtual reality.	NeuroImage	2024	DBLP DOI BibTeX RDF
11	Yidi Li, Jiale Ren, Yawei Wang, Guoquan Wang, Xia Li, Hong Liu 0008	Audio-visual keyword transformer for unconstrained sentence-level keyword spotting.	CAAI Trans. Intell. Technol.	2024	DBLP DOI BibTeX RDF
11	Xin Sun, Xuan Wang, Qiong Liu, Xi Zhou	Multi-Level Signal Fusion for Enhanced Weakly-Supervised Audio-Visual Video Parsing.	IEEE Signal Process. Lett.	2024	DBLP DOI BibTeX RDF
11	Xiaoting Wu, Xueyi Zhang, Xiaoyi Feng, Miguel Bordallo López, Li Liu 0002	Audio-Visual Kinship Verification: A New Dataset and a Unified Adaptive Adversarial Multimodal Learning Approach.	IEEE Trans. Cybern.	2024	DBLP DOI BibTeX RDF
11	Julio Navío-Marco, Luis Manuel Ruiz-Gómez, Raquel Arguedas Sanz, Carmen López-Martín	The student as a prosumer of educational audio-visual resources: a higher education hybrid learning experience.	Interact. Learn. Environ.	2024	DBLP DOI BibTeX RDF
11	Zhengyu Zhu, Chao Luo, Liping Liao, Pei Lin, Yao Li	Combining key pronunciation detection, frontal lip reconstruction, and time-delay for audio-visual consistency judgment.	Digit. Signal Process.	2024	DBLP DOI BibTeX RDF
11	Edurne Bernal-Berdun, Mateo Vallejo, Qi Sun, Ana Serrano, Diego Gutierrez	Modeling the Impact of Head-Body Rotations on Audio-Visual Spatial Perception for Virtual Reality Applications.	IEEE Trans. Vis. Comput. Graph.	2024	DBLP DOI BibTeX RDF
11	Qin Yang, Yuqi Li, Chenglin Li, Hao Wang 0183, Sa Yan, Li Wei, Wenrui Dai, Junni Zou, Hongkai Xiong, Pascal Frossard	SVGC-AVA: 360-Degree Video Saliency Prediction With Spherical Vector-Based Graph Convolution and Audio-Visual Attention.	IEEE Trans. Multim.	2024	DBLP DOI BibTeX RDF
11	Yuanyuan Jiang, Jianqin Yin, Yonghao Dang	Leveraging the Video-Level Semantic Consistency of Event for Audio-Visual Event Localization.	IEEE Trans. Multim.	2024	DBLP DOI BibTeX RDF
11	Maregu Assefa, Wei Jiang 0016, Jinyu Zhan, Kumie Gedamu, Getinet Yilma, Melese Ayalew, Deepak Adhikari	Audio-Visual Contrastive and Consistency Learning for Semi-Supervised Action Recognition.	IEEE Trans. Multim.	2024	DBLP DOI BibTeX RDF
11	Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian 0002, Yan Chen 0031	Noise-Tolerant Learning for Audio-Visual Action Recognition.	IEEE Trans. Multim.	2024	DBLP DOI BibTeX RDF
11	Yasheng Sun, Wenqing Chu, Hang Zhou, Kaisiyuan Wang, Hideki Koike	AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation.	CoRR	2024	DBLP DOI BibTeX RDF
11	Qilang Ye, Zitong Yu, Xin Liu	Answering Diverse Questions via Text Attached with Key Audio-Visual Clues.	CoRR	2024	DBLP DOI BibTeX RDF
11	Bruno Korbar, Jaesung Huh, Andrew Zisserman	Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling.	CoRR	2024	DBLP DOI BibTeX RDF
11	Xueyuan Chen, Yuejiao Wang, Xixin Wu, Disong Wang, Zhiyong Wu 0001, Xunying Liu, Helen Meng	Exploiting Audio-Visual Features with Pretrained AV-HuBERT for Multi-Modal Dysarthric Speech Reconstruction.	CoRR	2024	DBLP DOI BibTeX RDF
11	Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang	M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yusheng Dai, Hang Chen, Jun Du, Ruoyu Wang 0029, Shihao Chen, Jiefeng Ma, Haotian Wang, Chin-Hui Lee	A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	He Wang, Pengcheng Guo, Pan Zhou, Lei Xie	MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	Samuel Pegg, Kai Li, Xiaolin Hu 0001	TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion.	CoRR	2024	DBLP DOI BibTeX RDF
11	Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao 0001	HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara	SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	R. Gnana Praveen, Jahangir Alam	Dynamic Cross Attention for Audio-Visual Person Verification.	CoRR	2024	DBLP DOI BibTeX RDF
11	Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti	Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes.	CoRR	2024	DBLP DOI BibTeX RDF
11	Haoxu Wang, Ming Cheng, Qiang Fu, Ming Li	Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung	EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning.	CoRR	2024	DBLP DOI BibTeX RDF
11	Elena Ryumina, Maxim Markitantov, Dmitry Ryumin, Heysem Kaya, Alexey Karpov 0001	Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision.	CoRR	2024	DBLP DOI BibTeX RDF
11	HyoJung Han, Mohamed Anwar, Juan Pino 0001, Wei-Ning Hsu, Marine Carpuat, Bowen Shi, Changhan Wang	XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yuxin Guo, Shijie Ma, Yuhao Zhao, Hu Su, Wei Zou	Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization.	CoRR	2024	DBLP DOI BibTeX RDF
11	Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu	Unsupervised Audio-Visual Segmentation with Modality Alignment.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu	Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yan-Bo Lin, Gedas Bertasius	Siamese Vision Transformers are Scalable Audio-visual Learners.	CoRR	2024	DBLP DOI BibTeX RDF
11	Ziyang Chen, Israel D. Gebru, Christian Richardt, Anurag Kumar 0003, William Laney, Andrew Owens, Alexander Richard	Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark.	CoRR	2024	DBLP DOI BibTeX RDF
11	Jinxiang Liu, Yikun Liu, Fei Zhang, Chen Ju, Ya Zhang 0002, Yanfeng Wang	Audio-Visual Segmentation via Unlabeled Frame Exploitation.	CoRR	2024	DBLP DOI BibTeX RDF
11	R. Gnana Praveen, Jahangir Alam	Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention.	CoRR	2024	DBLP DOI BibTeX RDF
11	José-M. Acosta-Triana, David Gimeno-Gómez, Carlos D. Martínez-Hinarejos	AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies.	CoRR	2024	DBLP DOI BibTeX RDF
11	Tassadaq Hussain, Kia Dashtipour, Yu Tsao 0001, Amir Hussain 0001	Audio-Visual Speech Enhancement in Noisy Environments via Emotion-Based Contextual Cues.	CoRR	2024	DBLP DOI BibTeX RDF
11	Fan Yu, Haoxu Wang, Xian Shi, Shiliang Zhang	LCB-net: Long-Context Biasing for Audio-Visual Speech Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng 0003	AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao, Wei Zou, Siyang Sun, Yun Zheng	Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization.	CoRR	2024	DBLP DOI BibTeX RDF
11	Xianghu Yue, Xiaohai Tian, Malu Zhang, Zhizheng Wu 0001, Haizhou Li 0001	CoAVT: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model for Multimodal Processing.	CoRR	2024	DBLP DOI BibTeX RDF
11	Heqing Zou, Meng Shen, Yuchen Hu, Chen Chen 0075, Eng Siong Chng, Deepu Rajan	Cross-Modality and Within-Modality Regularization for Audio-Visual DeepFake Detection.	CoRR	2024	DBLP DOI BibTeX RDF
11	Denis Dresvyanskiy, Maxim Markitantov, Jiawei Yu, Peitong Li, Heysem Kaya, Alexey Karpov 0001	SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	R. Gnana Praveen, Jahangir Alam	Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition.	CoRR	2024	DBLP DOI BibTeX RDF
11	Christian Marinoni, Riccardo Fosco Gramaccioni, Changan Chen, Aurelio Uncini, Danilo Comminiello	Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality.	CoRR	2024	DBLP DOI BibTeX RDF
11	Qilang Ye, Zitong Yu, Rui Shao, Xinyu Xie, Philip H. S. Torr, Xiaochun Cao	CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios.	CoRR	2024	DBLP DOI BibTeX RDF
11	Yunlong Tang 0002, Daiki Shimada, Jing Bi, Chenliang Xu	AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue.	CoRR	2024	DBLP DOI BibTeX RDF
11	Hengwei Liu, Xiaodong Gu 0001	Masked co-attention model for audio-visual event localization.	Appl. Intell.	2024	DBLP DOI BibTeX RDF
11	Subhayu Ghosh, Snehashis Sarkar, Sovan Ghosh, Frank Zalkow, Nanda Dulal Jana	Audio-visual speech synthesis using vision transformer-enhanced autoencoders with ensemble of loss functions.	Appl. Intell.	2024	DBLP DOI BibTeX RDF
11	Pierre Albert, Fasih Haider, Saturnino Luz	CUSCO: An Unobtrusive Custom Secure Audio-Visual Recording System for Ambient Assisted Living.	Sensors	2024	DBLP DOI BibTeX RDF
11	Hao-Yan Zhang, Long-Bo Zhang, Qi-Feng Shi, Zhen-Tao Liu	Audio-Visual Bimodal Combination-Based Speaker Tracking Method for Mobile Robot.	J. Adv. Comput. Intell. Intell. Informatics	2024	DBLP DOI BibTeX RDF
11	Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling	Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement.	IEEE ACM Trans. Audio Speech Lang. Process.	2024	DBLP DOI BibTeX RDF
11	Zhe Chen, Hongcheng Liu, Yu Wang 0027	DialogMCF: Multimodal Context Flow for Audio Visual Scene-Aware Dialog.	IEEE ACM Trans. Audio Speech Lang. Process.	2024	DBLP DOI BibTeX RDF
11	Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu 0001, Xi Li	Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer.	AAAI	2024	DBLP DOI BibTeX RDF
11	Zhangbin Li, Dan Guo, Jinxing Zhou, Jing Zhang, Meng Wang 0001	Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering.	AAAI	2024	DBLP DOI BibTeX RDF
11	Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu	AVSegFormer: Audio-Visual Segmentation with Transformer.	AAAI	2024	DBLP DOI BibTeX RDF
11	Xiulong Liu, Sudipta Paul 0007, Moitreya Chatterjee, Anoop Cherian	CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments.	AAAI	2024	DBLP DOI BibTeX RDF
11	Renjie Wu 0008, Hu Wang, Feras Dayoub, Hsiang-Ting Chen	Segment beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation.	AAAI	2024	DBLP DOI BibTeX RDF
11	Jiadong Wang, Zexu Pan, Malu Zhang, Robby T. Tan, Haizhou Li 0001	Restoring Speaking Lips from Occlusion for Audio-Visual Speech Recognition.	AAAI	2024	DBLP DOI BibTeX RDF
11	Dawei Hao, Yuxin Mao, Bowen He, Xiaodong Han, Yuchao Dai, Yiran Zhong	Improving Audio-Visual Segmentation with Bidirectional Generation.	AAAI	2024	DBLP DOI BibTeX RDF
11	Abduljalil Radman, Jorma Laaksonen	AV-PEA: Parameter-Efficient Adapter for Audio-Visual Multimodal Learning.	VISIGRAPP (2): VISAPP	2024	DBLP BibTeX RDF
11	Sze An Peter Tan, Guangyu Gao, Jia Zhao	Audio-Visual Segmentation by Leveraging Multi-scaled Features Learning.	MMM (2)	2024	DBLP DOI BibTeX RDF
11	Shilong Yu, Chenhui Yang	MAVAR-SE: Multi-scale Audio-Visual Association Representation Network for End-to-End Speaker Extraction.	MMM (2)	2024	DBLP DOI BibTeX RDF
11	Yating Xu, Conghui Hu, Gim Hee Lee	Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video Parsing.	WACV	2024	DBLP DOI BibTeX RDF
11	Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie	Annotation-free Audio-Visual Segmentation.	WACV	2024	DBLP DOI BibTeX RDF
11	Jiwei Zhang 0012, Yi Yu 0001, Suhua Tang, Wei Li 0012, Jianming Wu	Multi-scale network with shared cross-attention for audio-visual correlation learning.	Neural Comput. Appl.	2023	DBLP DOI BibTeX RDF
11	Yiming Zhao, Hongdong Zhao, Xuezhi Zhang, Weina Liu	Vehicle classification based on audio-visual feature fusion with low-quality images and noise.	J. Intell. Fuzzy Syst.	2023	DBLP DOI BibTeX RDF
11	Jiwei Zhang 0012, Yi Yu 0001, Suhua Tang, Jianming Wu, Wei Li 0012	Variational Autoencoder with CCA for Audio-Visual Cross-modal Retrieval.	ACM Trans. Multim. Comput. Commun. Appl.	2023	DBLP DOI BibTeX RDF
11	Donghuo Zeng, Jianming Wu, Gen Hattori, Rong Xu, Yi Yu 0001	Learning Explicit and Implicit Dual Common Subspaces for Audio-visual Cross-modal Retrieval.	ACM Trans. Multim. Comput. Commun. Appl.	2023	DBLP DOI BibTeX RDF
11	Dandan Zhu, Xuan Shao, Qiangqiang Zhou, Xiongkuo Min, Guangtao Zhai, Xiaokang Yang	A Novel Lightweight Audio-visual Saliency Model for Videos.	ACM Trans. Multim. Comput. Commun. Appl.	2023	DBLP DOI BibTeX RDF
11	Rynhardt Kruger, Febe de Wet, Thomas Niesler	Mathematical Content Browsing for Print-disabled Readers Based on Virtual-world Exploration and Audio-visual Sensory Substitution.	ACM Trans. Access. Comput.	2023	DBLP DOI BibTeX RDF
11	Triantafyllos Kefalas, Eftychia Fotiadou, Markos Georgopoulos, Yannis Panagakis, Pingchuan Ma 0001, Stavros Petridis, Themos Stafylakis, Maja Pantic	KAN-AV dataset for audio-visual face and speech analysis in the wild.	Image Vis. Comput.	2023	DBLP DOI BibTeX RDF
11	Luis Guillermo, Jose-Maria Rojas, Willy Ugarte	Emotional 3D speech visualization from 2D audio visual data.	Int. J. Model. Simul. Sci. Comput.	2023	DBLP DOI BibTeX RDF
11	Yutao Zhang, Kaixing Wu, Mengfan Zhao	An Audio-Visual Separation Model Integrating Dual-Channel Attention Mechanism.	IEEE Access	2023	DBLP DOI BibTeX RDF
11	Yuya Chiba, Ryuichiro Higashinaka	Dialogue Situation Recognition in Everyday Conversation From Audio, Visual, and Linguistic Information.	IEEE Access	2023	DBLP DOI BibTeX RDF
11	Maryam Qamar, Suleman Qamar, Muhammad Muneeb, Sung-Ho Bae, Anis Ur Rahman 0001	Saliency Prediction in Uncategorized Videos Based on Audio-Visual Correlation.	IEEE Access	2023	DBLP DOI BibTeX RDF