0% Complete
English
صفحه اصلی
/
پانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Benchmarking Embedding Models for Persian-Language Semantic Information Retrieval
نویسندگان :
Mahmood Kalantari
1
Mehdi Feghhi
2
Nasser Mozayani
3
1- دانشگاه علم و صنعت ایران
2- دانشگاه علم و صنعت ایران
3- دانشگاه علم و صنعت ایران
کلمات کلیدی :
Embedding search،Embedding models،Persian embedding،Persian question-answering،Retrieval-Augmented Generation (RAG)
چکیده :
The increasing reliance on semantic-based retrieval, especially in the context of large language model-powered chatbots, underscores the need for robust evaluation of embedding models. In this study, the performance of embedding models for Persian-language information retrieval was investigated, addressing an area with limited prior research. Four question-answering datasets were used—two publicly available datasets adapted for this study and two custom datasets derived from translations. A systematic evaluation of 17 embedding models was conducted, and the models were ranked based on their accuracy in retrieving relevant content using similarity measures such as dot product, cosine similarity, and L2 distance. The findings emphasize the adaptability of these models to diverse textual data and address the specific challenges posed by the Persian language. This research bridges a critical gap in Persian-language retrieval tasks, providing a comprehensive benchmark for evaluating embedding models in semantic information retrieval scenarios.
لیست مقالات
لیست مقالات بایگانی شده
تاثیر مدیریت دانش مشتری بر توسعه محصول جدید و نوآورانه با رویکرد مدل سازی معادلات ساختاری با استفاده از حداقل مربعات جزئی: مطالعۀ موردی شرکت کاله
دکتر آرش خسروی - سیده فاطمه حسینی - دکتر مرتضی رجب زاده آرش خسروی - سیده فاطمه حسینی - مرتضی رجب زاده -
Presentation of a New Decoder Based on Quantum Cellular Automata Technology Along with an Analysis of Energy Consumption
- - -
Persian deaf sign language recognition system using deep learning
Mohammad Ebrahimi
A Multi-Task Framework Using Mamba for Identity, Age, and Gender Classification from Hand Images
Amirabbas Rezasoltani - Alireza Hosseini - Ramin Toosi - MohammadAli Akhaee
Towards Provable Privacy Protection in IoT-Health Applications
Samane Sobuti - دکتر سیاوش خرسندی
A Multi Objective & Trust-Based Workflow Scheduling Method In Cloud Computing Based On The MVO Algorithm
Fatemeh Ebadifard
DynamicEvoStream : خوشه بندی پویای جریان داده تکاملی در زمانهای بیکاری
زهرا عمیقی - مرتضی یوسف صنعتی - میرحسین دزفولیان
AI-based Message Spam Classification Framework for Secure Autonomous Vehicles Communication
Riya Upadhyay - Mili Virani - Lakshit Pathak - Rajesh Gupta - Sudeep Tanwar - Hossein Shahinzadeh
قطعه بندی خودکار توده کلیه در تصاویر توموگرافی کامپیوتری با استفاده از همافزایی شبکه عصبی عمیق U-Net و الگوریتم فراابتکاری نهنگ
علی خلیلی - محمد مصلح - محمد خیراندیش
A Joint Trajectory and Energy Harvesting Method for an UAV Enabled Disaster Response Network
Hosein Mohammadi Firozjae - Javad Zeraatkar Moghaddam - Mehrdad Ardebilipour
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2