مجموعه تست

Report
‫محتوای ارائه‬
‫• مقدمه‬
‫• پیشینه‬
‫• روش پیشنهادی‬
‫• نتایج‪ ،‬تحلیل و ارزیابی‬
‫• نتیجهگیری و کارهای آتی‬
‫‪Page  2‬‬
‫سیستم‌های بازیابی اطالعات (‪)Information Retrieval Systems‬‬
‫‪ ‬تعریف‬
‫شکل ‪ :1‬نمایی از یک سیستم بازیابی اطالعات [‪]Web 2010‬‬
‫کار می‬
‫در وب به ‌‬
‫جستجو ملموس‌ترین نمونه ‌از سیستم‌های بازیابی اطالعات است که برای بازیابی اسناد ‪‌ HTML‬‬
‫‌‬
‫‪ ‬موتورهای‬
‫رود‪.‬‬
‫‪Page  3‬‬
‫مجموعه تست (‪)Test Collection‬‬
‫‪ ‬تعریف‬
‫شکل ‪ :2‬نمایی ‌از مجموعه تست ‌و سیستم بازیابی اطالعات ]‪[Web 2010‬‬
‫‪ ‬کاربرد‪ :‬کارایی سیستم‌های بازیابی اطالعات براساس میزان ارتباط نتایج جستج ‌و با پرسش کار ‌بر ‌از طریق منبعی به نام مجموعه‬
‫تست ارزیابی می‌شود‪.‬‬
‫‪Page  4‬‬
‫انواع مجموعههای تست‬
‫مجموعه تست‬
‫غیر دودویی‬
‫دودویی‬
‫چند سطحی‬
‫قضاوت‌های ترجیحی‬
‫ارتباط جنبه‬
‫در قالب یک عدد‬
‫هر سند به پرسش ‌‬
‫در مورد ارتباط ‌‬
‫در مجموعه‌های تست با قضاوت‌های چند سطحی‪ ،‬قضاوت ‌‬
‫‪‌ ‬‬
‫هر سند به پرسش می‌باشد‪.‬‬
‫‌گر میزان ارتباط محتوای ‌‬
‫بیان می‌شود که نمایان ‌‬
‫‪‬‬
‫در محیط‌هایی (مثل وب) ]‪[Jär 2000‬‬
‫کاربرد مجموعه‌های تست با قضاوت‌های چند سطحی‪‌ :‬‬
‫بهتر است این اسناد خیلی مرتبط باشند‪.‬‬
‫– کار ‌بر معمو ‌ل اسناد ابتدای لیست را نگاه می‌کند که ‌‬
‫‪Page  5‬‬
‫ساخت مجموعههای تست‬
‫کار دشواری‌ نیست‪.‬‬
‫‪ ‬تهیه مجموعه اسناد ‌‬
‫کار دشواری‌ نیست ]‪.[Car 2008‬‬
‫‪ ‬ساخت مجموعه‌ پرسش‌ها ‌‬
‫در مجموعه‬
‫در مجموعه تست‌های بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسش‌های موجود ‌‬
‫‪‌ ‬‬
‫ممکن نیست ]‪.[San and Joh 2004‬‬
‫‌بر است ‌و مستلزم تالش انسانی است ]‪.[San and Joh 2004][Car and Ben 2008‬‬
‫‌بر ‌و هزینه ‌‬
‫• ساخت مجموعه قضاوت زمان ‌‬
‫در ارزیابی سیستم‌های بازیابی اطالعات خوب عمل نمی‌کند]‪.[Car 2008‬‬
‫اگر مجموعه تست فاقد قضاوت‌ها کافی باشد‪‌ ،‬‬
‫‌‬
‫•‬
‫‪ ‬بنابراین‬
‫• توسعه دهندگان مجموعه تست باید بین تعداد قضاوت‌ها و هزینه ساخت آن مصالحه انجام دهند‪.‬‬
‫•‬
‫اطمینان ‌از کافی بودن تعداد قضاوت‌های مجموعه تست‬
‫‪Page  6‬‬
‫تعریف مسئله‬
‫‪ ‬مسئله‪ :‬اطمینان از میزان کارآیی مجموعه تست در ارزیابی سیستمهای بازیابی اطالعات (قابلیت استفاده‬
‫مجدد)‪.‬‬
‫در مجموعه تست‪.‬‬
‫‪ ‬قابلیت استفاده مجدد یعنی اطمینان ‌از کافی بودن مجموعه قضاوت‌های‌ موجود ‌‬
‫نیاز باشد قابلیت استفاده مجدد ‌از مجموعه تست کاهش می‌یابد‪.‬‬
‫هر چه به قضاوت‌های بیشتری‌ ‌‬
‫• ‌‬
‫معیار کیفی است‪.‬‬
‫• قابلیت استفاده مجدد یک ‌‬
‫‪ ‬اهمیت عملی مسئله‪:‬‬
‫در تعیین این که آیا یک مجموعه موجود ‌از قضاوت‌ها برای ارزیابی سیستم‌های‬
‫• کمک به تولیدکنندگان مجموعه تست ‌‬
‫نیاز است‪.‬‬
‫بازیابی اطالعات مناسب است یا به قضاوت‌های بیشتری‌ ‌‬
‫‪Page  7‬‬
‫هدف‬
‫ارائه روش ی برای ارزیابی قابلیت استفاده مجدد مجموعه تست با قضاوتهای چند سطحی‬
‫در مجموعه تست اطمینان حاصل کرد‪.‬‬
‫‪ ‬بدین منظو ‌ر باید ‌از کافی بودن تعداد قضاوت‌های موجود ‌‬
‫معیار ارزیابی محاسبه می‌شود‪.‬‬
‫‪ ‬برای نشان دادن این اطمینان ‌از بازه اطمینان استفاده می‌شود که برای یک ‌‬
‫‪ ‬پهنای بازه‌های اطمینان‪ ،‬نماینده‌ای ‌از قابلیت استفاده مجدد مجموعه تست می‌باشد‪.‬‬
‫‪Page  8‬‬
‫محتوای ارائه‬
‫• پیشینه‬
‫‪Page  9‬‬
‫نمونههایی از مجموعههای تست‬
‫نام مجموعه‬
‫تست‬
‫توضیحات‬
‫میلیون‌ها صفحات وب از‬
‫نوع‬
‫تعداد اسناد‬
‫تعداد‬
‫پرسشها‬
‫تعداد‬
‫قضاوتها‬
‫آدرس‬
‫غیر دودویی‬
‫‌‬
‫‪1040809705‬‬
‫‪50‬‬
‫‪19381‬‬
‫‪http://trec.nist.gov/‬‬
‫‪1400‬‬
‫‪225‬‬
‫‪1837‬‬
‫‪http://ir.dcs.gla.ac.uk‬‬
‫‪/resources/test_collec‬‬
‫‪tions/cran/‬‬
‫‪64‬‬
‫‪796‬‬
‫‪http://cacm.acm.org/‬‬
‫‪1196‬‬
‫~‪http://ce.sharif.edu/‬‬
‫‪shesmail/Mahak/‬‬
‫‪21743‬‬
‫‪http://ece.ut.ac.ir/dbr‬‬
‫‪g/hamshahri/publicat‬‬
‫‪ions.html‬‬
‫‪TREC 2011‬‬
‫‪ClueWeb09 Dataset‬‬
‫‪Cranfield‬‬
‫مقاله‌های تکنیکی درمورد‬
‫حرکت گاز و هوا‬
‫دودویی‬
‫‪CACM‬‬
‫خالصه‌های ‪ACM‬‬
‫دودویی‬
‫‪3204‬‬
‫‪Mahak‬‬
‫شامل خبرهای ‪ISNA‬‬
‫غیر دودویی‬
‫‌‬
‫‪3006‬‬
‫‪216‬‬
‫‪Hamshahri 2‬‬
‫خبرهای روزنامه همشهری‌‬
‫دودویی‬
‫‪320000‬‬
‫‪50‬‬
‫‪Page  10‬‬
‫روشهای ساخت مجموعه قضاوت‬
[Har 1992]
[San and Joh 2004] [Cor 1998] )Interactive
‫• نمونه‌گیری‌ تصادفی‬
Searching and Judging( ‫• جستج ‌و ‌و قضاوت تعاملی‬
[Sob 2003] [San and Joh 2004]
)Relevance Feedback( ‫• بازخورد ارتباطی‬
[Car and Gab et al. 2010]
]Joh 2007[ Pooling ‫روش‬
Page  11
Pooling •
‫معیارهای ارزیابی سیستمهای بازیابی اطالعات‬
‫فرمول‬
‫نام‬
‫نوع‬
Precision
Recall
‫دودویی‬
Average Precision
Mean Average Precision
General Precision [Kek 2002]
General Recall [Kek 2002]
Graded Average Precision [Rob
2010]
Normalized Discounted
Cumulative Gain [Jär 2000]
Page  12
‫غیر‬
‫دودویی‬
‫روشهای بررس ی اسناد قضاوت نشده‬
‫معرفی‬
‫معیارهای‬
‫جدید‬
‫تخمین ربط هر‬
‫سند به‬
‫پرسش‬
‫‪[Buc‬‬
‫نام‬
‫نوع‬
‫اسناد قضاوت نشده‪ ،‬نامرتبط فرض شوند‬
‫نادقیق‬
‫‪binary preference‬‬
‫دودویی‬
‫]‪2004‬‬
‫دودویی‬
‫‪Inferred Average‬‬
‫]‪Precision [Yil 2006‬‬
‫رفتار کاربر‬
‫دسته بندی‬
‫کلیک ]‪[Rad 2006‬‬
‫‪[ Büt 2007] SVM‬‬
‫‪Multinomial Logistic Regression‬‬
‫دودویی‬
‫دودویی‬
‫غیر دودویی‬
‫‪Page  13‬‬
‫روشهای ارزیابی قابلیت استفادهی مجدد مجموعههای تست‬
‫‪ ‬مناسب نبودن روش‌های تخمین کارایی‪ :‬عدم اطمینان به تخمین‌ها‬
‫هر سند ‌از روی یک مجموعه‌ی کوچک ‌از قضاوت‌ها می‌توانند نسبت به هم با‬
‫دو سیستم بعد ‌از پیش‌بینی ارتباط ‌‬
‫• آیا ‌‬
‫اطمینان رتبه‌بندی شوند ]‪.[Car and Kan 2010‬‬
‫‪ ‬تخمین نقطه‌ای‬
‫•‬
‫معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطه‌ای تخمین زده می‌شود‪.‬‬
‫‌‬
‫با استفاده ‌از معیارهای کالسیک ‌و معرفی‬
‫‪ ‬تخمین بازه‌ای‬
‫•‬
‫]‪[Car and Gab et al. 2010‬‬
‫]‪[Car and Gab et al. 2010‬‬
‫بازه اطمینان برای معیار ‪ MAP‬محاسبه می‌شود‪.‬‬
‫‪‬روش تخمین بازه‌ای دقیق ‌تر ‌از تخمین نقطه‌ای است‪.‬‬
‫‪‬این روش‌ها محدود به ارزیابی مجموعه تست‌ها با قضاوت‌های دودویی هستند‪.‬‬
‫‪Page  14‬‬
‫نوآوری‬
‫‪ ‬ارزیابی قابلیت استفاده مجدد‪ ،‬مجموعه تست‌ها با قضاوت‌های چند سطحی‬
‫‪ ‬گسترش روش تخمین بازه اطمینان با استفاده از‪:‬‬
‫در تخمین بازه های اطمینان‬
‫• معیار ‪‌ NDCG‬‬
‫• مدل ‪ Multinomial Logistic Regression‬برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش‬
‫‪Page  15‬‬
‫محتوای ارائه‬
‫• روش پیشنهادی‬
‫‪Page  16‬‬
‫ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان‬
‫اگر یک مجموعه تست با مشخصات ز ‌یر وجود داشته باشد‪:‬‬
‫‪‌ ‬‬
‫• ‪ :J‬مجموعه قضاوت‬
‫• ‪ :Q‬مجموعه پرسش‬
‫معیار ارزیابی ‪m‬‬
‫‪ ‬قبل ‌از محاسبه کارایی یک سیستم بازیابی اطالعات با کمک این مجموعه تست ‌و ‌‬
‫•‬
‫باید ‌از کافی بودن تعداد قضاوت‌‌های موجود در ‪ J‬اطمینان حاصل نماییم‪ .‬برای نمایش این اطمینان ‌از بازه اطمینان استفاده می شود‪.‬‬
‫‪ ‬بازه اطمینان برای معیار ‪ m‬محاسبه می‌شود‪.‬‬
‫در محاسبه کارایی سیستم بازیابی اطالعات‬
‫• بازه اطمینان ابز ‌ار قدرتمندی است که به کار ‌بر اجازه می‌دهد عدم قطعیت را ‌‬
‫تعیین کند‪.‬‬
‫• عدم قطعیت ناش ی ‌از اسناد قضاوت نشده‌ای است که توسط سیستم بازیابی شده است‪.‬‬
‫‪Page  17‬‬
‫ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ‪...‬‬
‫‪ ‬برای محاسبه‌ی بازه اطمینان با معیار ‪ NDCG‬ابتدا باید امید ریاض ی ‌و واریانس معیار ‪ NDCG‬برای یک پرسش محاسبه‬
‫شود‪.‬‬
‫ا‬
‫معمول یک مجموعه ‌از پرسش ها وجود دارند‪.‬‬
‫‌‬
‫‪ ‬اما‬
‫در بازیابی اطالعات پرسش ها مستقلند‪.‬‬
‫‪‌ ‬‬
‫نظر گرفته شود‪.‬‬
‫در ‌‬
‫معیار ‌‬
‫‪ ‬برای یک مجموعه پرسش حالت رایج آن است که میانه ‌‬
‫‪Page  18‬‬
‫‪Multinomial Logistic Regression‬‬
‫بیشتر ‌از د ‌و دسته را شامل شود ‌و ‌از نوع اسمی‬
‫‌‬
‫متغییر وابسته‬
‫‌‬
‫بکار می‌رود که‬
‫‪ ‬این نوع رگراسیون‌ زمانی ‌‬
‫(‪ )Nominal‬باشد‪.‬‬
‫‪ ‬لذا استفاده از ‌از مدل ‪ Multinomial Logistic Regression‬برای تخمین سطوح ارتباطی مناسب می‌‌باشد‪.‬‬
‫امتر مدل می‌باشد که با استفاده از ‪Maximum likelihood‬تخمین زده می‌شود‪.‬‬
‫بردار پار ‌‬
‫– ‪‌ β‬‬
‫کار ‌از ویژگی شباهت سند (‪ )Document Similarity‬استفاده می‌شود‬
‫در این ‌‬
‫بردار ویژگی) می‌باشد‪‌ .‬‬
‫متغییر مستقل ( ‌‬
‫‌‬
‫بردار‬
‫– ‪‌ Xi‬‬
‫‪[Car and‬‬
‫]‪.All 2007‬‬
‫‪Page  19‬‬
‫شباهت بین اسناد‬
‫کاربرد‬
‫فرمول‬
‫نام‬
‫داده‌های متراکم‬
)‫(فاصله بین دو نقطه‬
Euclidean
Distance¹
‫داده‌های متراکم‬
Pearson
Correlation
Coefficient
‫داده‌های پراکنده‬
)‌‫(داده‌های باینری‬
Jaccard
Coefficient
)‫داده‌های پراکنده (متن‬
Cosine
similarity
[Hua 2008]
[Car and All 2007]
¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf
Page  20
‫محتوای ارائه‬
‫• نتایج‪ ،‬تحلیل و ارزیابی‬
‫‪Page  21‬‬
‫پیادهسازی و آزمایشات‬
‫در د ‌و مرحله انجام گرفته است‪:‬‬
‫‪ ‬آزمایشات ‌‬
‫‪ .1‬مرحله اول‌ ساخت مجموعه قضاوت با استفاده ‌از روش ‪ pooling‬است‪.‬‬
‫در مرحله‌‌ی اول‌ ساخته شده است‪ ،‬سیستم‌های بازیابی اطالعات دیگری‌ ارز‌یابی‬
‫‪ .2‬با استفاده ‌از مجموعه قضاوتی که ‌‬
‫می‌شوند‪.‬‬
‫‪‬‬
‫داده‪:‬‬
‫• سیتم بازیابی اطالعات‪ 10 :‬موتور‌ جستج ‌و متن باز‬
‫• مجموعه تست‬
‫نیاز را تولید می‌کند‪.‬‬
‫• نتیجه اجراهای موتورهای جستج ‌و ‌بر روی مجموعه تست‪run ،‬های مورد ‌‬
‫• ‪run‬ها ‌بر اساس ‪ NDCG‬رتبه بندی می‌شوند (‪.)True NDCG‬‬
‫‪Page  22‬‬
‫پیادهسازی و آزمایشات‪...‬‬
‫‪ ‬روش کار‪:‬‬
‫‪ run ،m .1‬به صورت تصادفی انتخاب می‌کنیم‪ .‬که به آن ‪ run‬اولیه گفته می‌شود‪( .‬به باقیمانده ‪run‬ها‪ run ،‬تست گفته می‌شود‪).‬‬
‫هر پرسش‪ ،‬به وسیله‌ی ‪ run‬اولیه بازیابی شده است‪ ،‬استفاده می‌کنیم‪.‬‬
‫‪ .2‬برای تشکیل ‪ Pool‬از ‪ k‬سند اول‌ که برای ‌‬
‫‪ .3‬در ‪run‬های اولیه ‌و تست سطح ارتباطی اسناد قضاوت نشده ‌از طریق ‪ Multinomial Logistic Regression‬بیش‌بینی می‌شود‪.‬‬
‫‪ .4‬برای هر ‪ run‬تست ‪ NDCG‬محاسبه می‌شود )‪.(Expected NDCG‬‬
‫‪ .5‬واریانس معیار ‪ NDCG‬برای ‪run‬های تست محاسبه می‌شود‪.‬‬
‫‪ .6‬بازه اطمینان محاسبه می‌شود‪.‬‬
‫‪ ‬ارزیابی روش‪:‬‬
‫‪ .1‬برای ارزیابی باید ‪run‬های تست را ‌بر اساس معیار ‪ NDCG‬رتبه‌بندی کرد‪.‬‬
‫بر اساس ‪ true NDCG‬و ‪ )Expected NDCG‬با استفاده از ‪Kendall’s τ rank‬‬
‫‪ .2‬کیفیت رتبه‌بندی ‪run‬های تست )رتبه بندی ‌‬
‫‪ correlation‬بررس ی می‌شود‪.‬‬
‫‪ .3‬برای بازیابی اطالعات ‪ τ ≥ 0.9‬مناسب می‌باشد ]‪.[Car and Gab et al. 2010‬‬
‫‪Page  23‬‬
‫نمونه اجرایی‬
m = 1, k = 5, Kendall’s τ rank correlation = 0/6111
.‫ بوده است‬6 ‫ دارای رتبه‬True NDCG ‫ اولیه بر اساس‬Run
Page  24
...‫نمونه اجرایی‬
m = 1, k = 5, Kendall’s τ rank correlation = 0/7778
.‫ بوده است‬1 ‫ دارای رتبه‬True NDCG ‫ اولیه بر اساس‬Run
Page  25
‫نتایج آزمایشات برای مجموعه تست غیر دودیی (‪)MAHAK‬‬
‫‪τ‬‬
‫بازه اطمینان‬
‫تعداد اسناد قضاوت‬
‫شده‬
‫‪K‬‬
‫‪0/29365‬‬
‫‪0/128020155‬‬
‫‪121‬‬
‫‪1‬‬
‫‪0/74605‬‬
‫‪0/0069893855‬‬
‫‪375‬‬
‫‪5‬‬
‫‪0/78575‬‬
‫‪0/0065785105‬‬
‫‪534‬‬
‫‪10‬‬
‫‪0/8889‬‬
‫‪0/0059941193‬‬
‫‪663‬‬
‫‪20‬‬
‫‪0/7857‬‬
‫‪0/007941276‬‬
‫‪170‬‬
‫‪1‬‬
‫‪0/85716‬‬
‫‪0/00572081‬‬
‫‪424‬‬
‫‪5‬‬
‫‪0/9286‬‬
‫‪0/005418785‬‬
‫‪616‬‬
‫‪10‬‬
‫‪0/9286‬‬
‫‪0/005170732‬‬
‫‪731‬‬
‫‪20‬‬
‫‪0/7143‬‬
‫‪0/006889205‬‬
‫‪187‬‬
‫‪1‬‬
‫‪0/85715‬‬
‫‪0/005039548‬‬
‫‪470‬‬
‫‪5‬‬
‫‪0/9048‬‬
‫‪0/004924617‬‬
‫‪633‬‬
‫‪10‬‬
‫‪0/9048‬‬
‫‪0/004829821‬‬
‫‪766‬‬
‫‪20‬‬
‫‪m‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪Page  26‬‬
‫نتایج آزمایشات برای مجموعه تست دودیی (همشهری)‬
‫‪τ‬‬
‫بازه اطمینان‬
‫تعداد اسناد قضاوت شده‬
‫‪K‬‬
‫‪0/82916‬‬
‫‪0/006918135‬‬
‫‪26‬‬
‫‪5‬‬
‫‪0/83335‬‬
‫‪0/006404359‬‬
‫‪36‬‬
‫‪10‬‬
‫‪0/83335‬‬
‫‪0/006214945‬‬
‫‪49‬‬
‫‪0/85571‬‬
‫‪0/006210335‬‬
‫‪51‬‬
‫‪20‬‬
‫‪5‬‬
‫‪0/92164‬‬
‫‪0/006154632‬‬
‫‪70‬‬
‫‪10‬‬
‫‪0/92164‬‬
‫‪0/006013515‬‬
‫‪96‬‬
‫‪0/87215‬‬
‫‪0/006210065‬‬
‫‪57‬‬
‫‪20‬‬
‫‪5‬‬
‫‪0/95148‬‬
‫‪0/005996154‬‬
‫‪83‬‬
‫‪10‬‬
‫‪0/97548‬‬
‫‪0/005986718‬‬
‫‪117‬‬
‫‪20‬‬
‫‪m‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪Page  27‬‬
‫محتوای ارائه‬
‫• نتیجهگیری و کارهای آتی‬
‫‪Page  28‬‬
‫نتیجه گیری‬
‫‪ ‬هدف‪ :‬ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تست‌ها با قضاوت‌های چند سطحی‬
‫‪ ‬مناسب نبودن روش‌های تخمین کارایی‪ :‬عدم اطمینان به تخمین‌ها‬
‫‪ ‬تخمین قابلیت استفاده مجدد با کمک بازه‌های اطمینان‬
‫بیشتر است‪.‬‬
‫‌‬
‫نیاز به قضاوت‌های‬
‫کمتر است ‌و ‌‬
‫اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد ‌‬
‫‌‬
‫•‬
‫•‬
‫‪NDCG‬‬
‫•‬
‫‪Multinomial Logistic Regression‬‬
‫‪ ‬کارهای آینده‬
‫سایر مجموعه تست‌ها مانند مجموعه‌های تست با قضاوت‌های‬
‫• گسترش روش ارزیابی قابلیت استفاده مجدد به گونه‌ای که برای ‌‬
‫کار برد‪.‬‬
‫نیز به ‌‬
‫ترجیحی ‌و ارتباط جنبه ‌‬
‫دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده‬
‫• استفاده ‌از روش‌های ‌‬
‫• استخراج ویژگی‌های دیگر‬
‫‪Page  29‬‬
‫مقاالت علمي استخراج شده از پایان نامه‬
Accepted:
Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with
Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge
Engineering, Bangkok. Thailand ,2012.
Under Review:
Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test
Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.
Page  30
‫مراجع‬
[Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software
Engineering The University of Melbourne. PhD thesis.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
[San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling .Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM.
[Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255.
[Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual
international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM.
[Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual
international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM.
[Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third
ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240.
[Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval
Conference (TREC-1).
[Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on
Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20.
[Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual
international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
Page  31
‫مراجع‬
[Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol.
53(13): 1120-1129.
[Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM.
[Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29.
[Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the
15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA.
[Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough
logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412.
[ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements.
Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.
Amsterdam, The Netherlands, ACM.
[Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR
conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM.
[Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547554.
[Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities.
Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM.
[Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer
Science Research Student Conference .Christchurch, New Zealand : 49-56.
[San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.
Page  32

similar documents