0% Complete
فارسی
Home
/
پانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Benchmarking Embedding Models for Persian-Language Semantic Information Retrieval
Authors :
Mahmood Kalantari
1
Mehdi Feghhi
2
Nasser Mozayani
3
1- دانشگاه علم و صنعت ایران
2- دانشگاه علم و صنعت ایران
3- دانشگاه علم و صنعت ایران
Keywords :
Embedding search،Embedding models،Persian embedding،Persian question-answering،Retrieval-Augmented Generation (RAG)
Abstract :
The increasing reliance on semantic-based retrieval, especially in the context of large language model-powered chatbots, underscores the need for robust evaluation of embedding models. In this study, the performance of embedding models for Persian-language information retrieval was investigated, addressing an area with limited prior research. Four question-answering datasets were used—two publicly available datasets adapted for this study and two custom datasets derived from translations. A systematic evaluation of 17 embedding models was conducted, and the models were ranked based on their accuracy in retrieving relevant content using similarity measures such as dot product, cosine similarity, and L2 distance. The findings emphasize the adaptability of these models to diverse textual data and address the specific challenges posed by the Persian language. This research bridges a critical gap in Persian-language retrieval tasks, providing a comprehensive benchmark for evaluating embedding models in semantic information retrieval scenarios.
Papers List
List of archived papers
Improving Privacy Protection in a Collaborative Blockchain-based E-Health Records System
Arman Emam-Hoseini - Samane Sobuti - دکتر سیاوش خرسندی - Alireza Hashemi-Golpayeghani
ارائه یک رویکرد معنایی مبتنی بر آنتولوژی به منظور شناسایی تاکتیکهای معماری
احسان شریفی - دکتر احمد عبدالله زاده بارفروش
Architectural Insights: Comparing Weight Stationary and Output Stationary Systolic Arrays for Efficient Computation
Mahdi Kalbasi
امنیت در اینترنت اشیا؛ معماری، کاربردها، چالشها و راهکارها
مهدی موسی وند - دکتر پیام محمودی نصر مهدی موسی وند - پیام محمودی نصر -
Automatic identification and reconstruction of Tuberculosis in microscopic images using convolutional auto-encoder network
Ahmad Reza Nadafi - Farahnaz Mohanna
ISPREC: Integrated Scientific Paper Recommendation using heterogeneous information network
Elaheh Jafari - Dr Bita Shams - Dr Saman Haratizadeh
مدل یادگیری عمیق با بازنمایی چند مقیاسی زمان برای پیشبینی آبشار اطلاعاتی در شبکههای اجتماعی
مبینا پناهی - مهدی عمادی
بررسی امنیت وفقی در اینترنت وسایل نقلیه
سیده یگانه غیور باغبانی - دکتر سعید جلیلی سیده یگانه غیور باغبانی - سعید جلیلی -
جایگزینی دارو براساس پیشبینی یال روی گرافهای ناهمگون با بهرهگیری از جاسازی گراف ناهمگون
رسول سامانی - فهیمه شاهرخ شهرکی - دکتر ناصر قدیری رسول سامانی - فهیمه شاهرخ شهرکی - ناصر قدیری -
An efficient hybrid approach for performance-based alternative design evaluation in systems engineering
Abbas Chaman Para - Maryam Nooraei Abadeh - Sondos Bahadori
more
Samin Hamayesh - Version 43.8.0