International Conference on Information and Knowledge Technology

فارسی

Home / شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش

From Faces to Words: An Efficient Persian Visual Lip Reading

Authors :

Mana Amini¹ Sajjad Aemmi² Azadeh Ashouri³ Reza Akhoundzadeh⁴ Kourosh Hassanzadeh⁵ Mohammad Reza Mohammadi⁶

1- PART AI Research Center 2- PART AI Research Center 3- PART AI Research Center 4- PART AI Research Center 5- PART AI Research Center 6- Iran University of Science and Technology

Keywords :

Lip Reading،Visual Speech Recognition،CTC Loss،LSTM،Video-Based Authentication

Abstract :

Visual speech recognition, or lip reading, is the task of transcribing spoken content directly from video frames of a speaker’s mouth without relying on audio. We develop an end-to-end visual lip reading system that processes cropped mouth regions from video sequences and decodes them into text using recurrent neural networks trained with CTC loss. To extend beyond existing English datasets, we collected and manually annotated a new Persian Lip Reading Dataset (PLRD), providing valuable resources for studying morphologically rich languages. Our experiments show that the proposed system achieves competitive word error rates on our custom Persian dataset. Beyond transcription, the model can also be employed in authentication scenarios, where it verifies whether a spoken phrase in a video matches a given reference text. This demonstrates the potential of lip reading systems not only for accessibility and robust speech recognition in noisy environments, but also for secure user verification.

List of archived papers

شناسایی کمپلکس‎ های پروتئینی با استفاده از داده‎ های زیستی و خوشه بندی فازی

مریم مولی وردیخانی - دکتر سعید جلیلی مریم مولی وردیخانی - سعید جلیلی -

بررسی روش m-ary در تولید زنجیره‌های افزونه‌ کوتاه

هادی صادقی کاجی - دکتر زهرا کریمی - دکتر محمد غلامی

LLM-Driven Feature Extraction for Stock Market Prediction: A case study of Tehran Stock Exchange

Siavash Hosseinpour Saffarian - Saman Haratizadeh

تشخیص مراحل خواب با کمک جنگل تصادفی و ویژگی های فرکانسی استخراج شده از سیگنال های EEG و EOG

سیدعلی حسینی

Ensemble Model Based on an Improved Convolutional Neural Network with a Domain-agnostic Data Augmentation Technique

Faraz Fatahnaie - Armin Azhdehnia - Seyyed Amir Asghari - Mohammadreza Binesh Marvasti

چارچوب بومی پیاده‌سازی حکمرانی داده در رسانه‌های عمومی بر پایه مدل EDM

مریم فتحی - عبدالله امیرخانی - فرشید بهجت محمدی - ملیحه حاجی حسینی

Binary water stream algorithm: a new meta-heuristic optimization technique

Faezeh Rahimi Sebdani - Mehdi Nasri

Improved Weighting in the Automated Texts Classification using Fuzzy Method

Hamidreza Sadrarhami - S. Mohammadali Zanjani - Ghazanfar Shahgholian

مکان‌یابی خطاهای کاربردها و خدمات نرم‌افزاری با کمک تولید داده آزمون با نامتغیرهای محتمل

محمد نصرتی مقدم - حسن حقیقی - مجتبی وحیدی اصل

استخراج ویژگی مجموعه داده‌های پزشکی دارای ابعاد بالا با استفاده از برنامه نویسی ژنتیک چند منظوره

سحر فقیهی راد - دکتر سیده نفیسه آل محمد سحر فقیهی راد - سیده نفیسه آل محمد -

more

Samin Hamayesh - Version 44.5.0