0% Complete
English
صفحه اصلی
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
From Faces to Words: An Efficient Persian Visual Lip Reading
نویسندگان :
Mana Amini
1
Sajjad Aemmi
2
Azadeh Ashouri
3
Reza Akhoundzadeh
4
Kourosh Hassanzadeh
5
Mohammad Reza Mohammadi
6
1- PART AI Research Center
2- PART AI Research Center
3- PART AI Research Center
4- PART AI Research Center
5- PART AI Research Center
6- Iran University of Science and Technology
کلمات کلیدی :
Lip Reading،Visual Speech Recognition،CTC Loss،LSTM،Video-Based Authentication
چکیده :
Visual speech recognition, or lip reading, is the task of transcribing spoken content directly from video frames of a speaker’s mouth without relying on audio. We develop an end-to-end visual lip reading system that processes cropped mouth regions from video sequences and decodes them into text using recurrent neural networks trained with CTC loss. To extend beyond existing English datasets, we collected and manually annotated a new Persian Lip Reading Dataset (PLRD), providing valuable resources for studying morphologically rich languages. Our experiments show that the proposed system achieves competitive word error rates on our custom Persian dataset. Beyond transcription, the model can also be employed in authentication scenarios, where it verifies whether a spoken phrase in a video matches a given reference text. This demonstrates the potential of lip reading systems not only for accessibility and robust speech recognition in noisy environments, but also for secure user verification.
لیست مقالات
لیست مقالات بایگانی شده
Detection of Backdoor Attacks in Neural Networks Using Input Optimization
Parsa Hashemi Khorsand - Ahmad Nickabadi
جایگذاری مقادیر ازدست رفته در داده های سری زمانی چندمتغیره برای پیش بینی مرگ ومیر بیماران با رویکرد یادگیری عمیق مبتنی بر مکانیسم توجه
سید علی هاشمی - سعید جلیلی
مکانیابی خطاهای کاربردها و خدمات نرمافزاری با کمک تولید داده آزمون با نامتغیرهای محتمل
محمد نصرتی مقدم - حسن حقیقی - مجتبی وحیدی اصل
نقش دادههای آنلاین یونیفرمیتی و تحلیل آماری پیشرفته با ترکیب پایتون و پاوربیآی در بهبود کیفیت و فرآیند تولید تایر
دانیال قادری
OENMOP: Loss-Aware 4×4 and 5×5 and Scalable Non‑blocking Optical Switches Designed for Odd-Even Routing Algorithm for Chip-Scale Interconnection Networks
Negin Bagheri Renani - Elham Yaghoubi - Mina Mohammadirad
روشی چندوجهی برای تحلیل احساسات در زبان فارسی با استفاده نشریه ساختار بلاغی و ترنسفرمرها
ریحانه احمدی علیائی - امینه امینی - عباس جلیلوند
LuckyAgent2022: A Stop-Learning Multi-Armed Bandit Automated Negotiating Agent
Arash Ebrahimnezhad - Faria Nassiri-Mofakham
Classification of Personality Traits on Facebook Using Key Phrase Extraction, Language Models and Machine Learning
Faezeh Safari - Abdolah Chalechale
A Model-Driven Approach for Automatic Generation of Android Tourism Applications
Sara Adib - Bahman Zamani
Stock Market Prediction Using Hard and Soft Data Fusion
Saeed Mohammadi Dashtaki - Masoud Alizadeh - Behzad Moshiri
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.8.0