0% Complete
فارسی
Home
/
سیزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
طبقه بندی روش های شناسایی داده های تکراری در جهت تسهیل فرایند پاکسازی داده ها
Authors :
مهدی جعفری
1
احمد عبدالله زاده بار فروش
2
1- دانشگاه صنعتی امیرکبیر
2- دانشگاه صنعتی امیرکبیر
Keywords :
پاکسازی داده ها،شناسایی داده های تکراری،کیفیت داده ها،کلان داده
Abstract :
روز به روز حجم دادههای تولید شده توسط انسانها در حال افزایش است. این داده ها اگر به درستی مدیریت شوند می توانند در امر تجزیه و تحلیل و استخراج دانش از آنها مفید واقع شوند. داده ها اغلب پس از جمع آوری، یکپارچه سازی و ذخیره سازی با مشکلات کیفیتی روبرو می شوند. این مشکلات کیفیتی در جهت بهبود کیفیت داده ها و به دنبال آن استخراج دانش مفید از آنها در طی فرایند تجزیه و تحلیل باید در ابتدا شناسایی شده و سپس پردازش های متناسب در جهت مقابله با آنها انجام شود. داده های تکراری به عنوان یکی از مشکلات کیفیتی رایج و مهم مورد توجه این مقاله است. از گذشته تاکنون پژوهش های متعددی بر مبنای رویکردهای مختلف از جمله مبتنی بر قانون، مبتنی بر مفاهیم یادگیری، مبتنی بر خرد جمعی و ... در جهت شناسایی انواع مختلف داده های تکراری انجام و هر یک از آنها منجر به ارائه یک روش نوین در جهت مقابله با این مشکل شده است. هدف ما در این مقاله ارائه یک طبقه بندی از روش های شناسایی داده های تکراری و به دنبال آن بحث و تجزیه و تحلیل هر یک از روش های مطرح بر اساس طبقه بندی ارائه شده است.
Papers List
List of archived papers
PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge Graph
Romina Etezadi - Mehrnoush Shamsfard
3D Mesh ONoC: Design of low Insertion Loss and Non-blocking Optical Router and Efficient Routing Algorithm
Sanaz Asadinia - Elham Yaghoubi - Mostafa Sadeghi - Mahdi Mehrabi
Electrophysiological Modeling and Interactive Approaches of Electrical Circuits and Hypergraphs for Understanding Neural Circuit Dynamics
Arian Baymani - Maryam Naderi Soorki
Business Process Improvement Challenges: A Systematic Literature Review
Hanieh Kashfi - Fereidoon Shams Aliee
سنجش داده محور ارزش ویژه برند کارکنان
علیرضا برادران - سپیده نصیری
تولید خودکار موارد آزمون برای پوشش مسیر اصلی با الگوریتم جایا
ُSaba Yadegari - Mohammad-Reza Keyvanpour
Using Trust Statements and Ratings by GraphSAGE to Alleviate Cold Start in Recommender Systems
Seyedeh Niusha Motevallian - Dr Seyed Mohammad Hossein Hasheminejad
A Demand Response Schema in Industry: Smart Scheduling Approach for Industrial Processes
Negin Shafinezhad - Hamid Abrishami - Maryam Mahmoodi
کنترل کیفیت غیرمتمرکز مبتنی بر هوش ترکیبی در سیستمهای مشارکتی برخط
مهدیه طالب زاده - هاله امین طوسی - محمد اله بخش
Analysing effect of news polarity on stock market prediction: a machine learning approach
Golshid Ranjbaran - Dr Mohammad-Shahram Moin - Dr Sasan H Alizadeh - Dr Abbas Koochari
more
Samin Hamayesh - Version 42.0.3