大型國際評比

Report
大型測驗評析
國立臺南大學 測驗統計研究所
林素微
[email protected]
簡介內容
•
•
•
•
•
NAEP
TIMSS
PIRLS
PISA
TASA
NAEP
http://nces.ed.gov/nationsreportcard/
National Assessment of
Educational Progress (NAEP)
•NAEP在1964年開始,從卡內基公司成立教育
進展評量探索委員會。
•於1969年開始。對於相同的學科領域,每四或
五年對當年的4、8、和12年級學生施測。
•目前有施測的學科領域包括Arts, Civics,
Economics, Geography, Mathematics, Reading,
Science, U.S. History, Writing等。
•各州開始於1990年試辦自願性的評量,至此
NAEP每兩年進行。
關於NAEP
• National Assessment of Educational
Progress (NAEP),是美國國會立法授權之後,
所進行的全國性評量。又稱為Nation’s Report
Card。
• 於1969年開始。對於相同的學科領域,每四或五
年對當年的4、8、和12年級學生施測。
• 目前有施測的學科領域包括Arts, Civics,
Economics, Geography, Mathematics,
Reading, Science, U.S. History, Writing等
。
關於NAEP1
• 每年投入超過125位全時間工作的人力
,而參與的約有5000人。
• 美國教育部的National Center for
Educational Statistics (NCES)之負責
人負責將NAEP的相關業務與合格的廠
商簽約。
• 教育部長所指派成立的National
Assessment Governing Board
(NAGB) 負責督導整個NAEP的進行。
關於NAEP2
參與的協力廠商包括:
• Council of Chief State School
Officers (CCSSO)—發展測量內容
• ACT找出各科各年級的成就水準(
achievement level)
• Educational Testing Service (ETS)
負責測量工具的發展、計分、分析資料
以及報告結果。
關於NAEP3
• Westat負責抽樣。
• National Computer Systems (NCS)
印製測量工具以及將學生的作答結果掃
瞄
• American Institutes for Research
(AIR) 負責發展背景問卷。
關於NAEP4
NAEP的種類:
• National NAEP
--Main NAEP
--Long–Term NAEP
• State NAEP—從1990年起開始有試驗
性(trial)的state NAEP,1996年起
正式實施State NAEP。
NAEP Instruments1
• NAEP每一個評量都是根據評量架構所發展出
來的,評量架構( framework )是引導認知
評量試題發展以及決定測驗內容的藍圖。
• NAGB負責督導 NAEP評量架構的擬定,而
NCES則負責督導認知試題及計分規準(
scoring rubrics)的發展。
NAEP Instruments2
• 每一份評量的測量工具由兩個主要成份所組成:
-- 學科特定的認知試題(subject-specific
cognitive items),測量學生在某一個學科的學
習成就表現;
--non-cognitive items(非認知試題), 也稱為
背景問卷(background questions),用來蒐集
學生、教師、和學校行政人員一些與學生學習成
就有關的背景變項資料。
Frameworks 的功能
• 每一個NAEP學科領域評量都是依據由
National Assessment Governing
Board所發展出來的評量架構,每一個
評量架構提供了:
• 評量的理論基礎,
• 評量中該使用何種題型的試題,
• 試題該如何設計,以及
• 試題該如何計分。
認知試題的發展過程1
每個學科試題發展的步驟如下:
1.
National Assessment Governing Board 提供
各學科評量架構及試題規格(明細)。
2.
各學科的評量工具發展委員會提供在資源及測量
科技的可行性( feasibility of measurement
technology )之限制下,評量的目標如何可以被測量
之指引,此委員會提供評量內容重點、先後次序以及
發展哪些題型等建議。
3.
由美國國內實務工作者及評量工具發展委員會等
參與的廣泛的選擇過程,選出評量所用的題目。
認知試題的發展過程2
4. 由具有學科領域專長及產生試題經驗的專家來發展
和複審(review)評量的試題。
5. 試題及計分規準由NAEP測驗發展人員及外部專家
來複審及修正。
6. 各州教育人員的代表開會並複審所有計畫用在州的
評量之所有的試題及背景問卷。
7. 根據NCES的要求,進行試題版面編排及公平性複
審。
認知試題的發展過程3
8.
9.
預試(field test)材料被準備好。
在隔年要進行正式施測(
operational assessment)許多州及行
政管轄區進行預試。
10.各州教育人員代表聚集開會並複審被
選來作為州評量的試題之預試結果。
認知試題的發展過程4
11. 根據預試試題分析的結果,每一個學科領域的新
試題進行必要的修改或修正。被修改過的試題得
再經過一次完整的複審過程。
12. 每一個學科領域的評量工具發展委員會批准那些
被選取作為隔年正式施測的試題。
13. 在最後的複審及檢查以確定每一個評量題本以及
每一個區塊都滿足了評量指引上的要求之後,每
一個題本被排版且印製。
NAEP的題目
• NAEP的題型大致上分成兩大類:選擇
型試題與建構反應型試題(包括二元計
分及多元計分)。
• NAEP各科的試題量很大,但是NAEP希
望每一個考生能在90分鐘之內,做完所
有的試題與背景問卷。因此,參加
NAEP測量的學生僅作答部分的試題。
NAEP的施測及計分
• NAEP利用balanced incomplete block
design(BIB)來收集考生作答反應。
• 利用複雜的統計方法來計算每一個考生、
班級、學校之平均分數(或能力值)。
如前所提,因為考生並未作答該科所有
試題,因此個別考生的分數不是NAEP
所關心的。
http://nces.ed.gov/nationsreportcard/itmrlsx/default.aspx
以數學為例
NAEP數學內容領域與數學能力
簡介
資料來源
http://www.nagb.org/publications/fra
meworks/math-framework09.pdf
數學內容領域
• 數感、數的性質、以及運算
• 測量
• 幾何及空間感
• 資料分析、統計、及機率
• 代數及函數
數學能力(舊)
• 概念理解
• 程序執行
• 問題解決
•
試題的數學複雜度
MATHEMATICAL
COMPLEXITY OF ITEMS
低複雜度
中複雜度
高複雜度
試題圖
http://nces.ed.gov/nationsreportcard/itemmaps/index.asp
四年級
數學
八年級
寫作
難度的描述
• NAEP四年級學生數學表現水準描述
• NAEP八年級學生數學表現水準描述
NAEP四年級表現水準
• 基礎水準之四年級學生對五個NAEP
內容領域展現概念性與程序性理解。
下列 4 顆大小相等但不同圖樣的皮球被放置在一
個箱子內,小剛從箱子中選取一顆球,但看不見
皮球的圖樣,那麼任一圖樣的皮球被選取的機率
為何?
(2003)
*(1) 1/4
(2) 1/2
(3) 1/3
(4) 3/4
正確答對的
機率
基礎 63%
精熟 85%
進階 96%
• 精熟水準之四年級學生能一致地應用
整合的概念性理解和程序性知識於五
個NAEP內容領域中的問題解決。
安安有 3 個小魚圖案的盤子,每一盤子畫有 4
株小草和 5 條小魚,小魚總共有幾條?
(2003)
(1) 3+5
(2) 3×4
*(3) 3×5
(4) 3+5+4
正確答對的
機率
基礎 52%
精熟 88%
進階 99%
• 進階水準之四年級學生能一致地應用整合
的概念性理解和程序性知識於五個NAEP
內容領域中複雜與非例行性的問題解決。
下列那一些整數能讓 8 – □> 3 之不等式成
立?
(1)0,1,2,3,4,5
*(2)0,1,2,3,4
(3)0,1,2
(4)5
(2003)
正確答對的
機率
基礎 19%
精熟 30%
進階 65%
NAEP八年級表現水準
• 基礎水準之八年級學生對五個NAEP內
容領域展現概念性與程序性理解。該表
現水準學生能理解整數、小數、分數和
百分位數等的運算(包含估算)。
50 顆金牌蕃茄的平均重量是 2.36 磅,這 50 顆蕃
茄的總重是多少磅?
(1990)
(1) 0.0472
(2) 11.8
(3) 52.36
(4) 59
*(5) 118
正確答對的
機率
基礎 69%
精熟 90%
進階 98%
• 精熟水準之八年級學生能一致地應
用數學概念和程序解決五個NAEP
內容領域的複雜問題。
凱特買了 1 本$14.95 的書,1 個$5.85 的唱
片,和 1 個$9.70 的卡帶,若這些物品的商
業稅是百分之 6,且三個物品都要扣稅,這
三個物品含稅的總價是多少?
(1990)
*(1) $32.33
(2) $32.06
(3) $30.56
(4) $30.50
(5) $ 1.83
正確答對的
機率
基礎 44%
精熟 74%
進階 93%
• 進階水準之八年級學生對NAEP五
個內容領域的數學規則不僅展現
超辨識與應用的能力,他們還能
歸納和統整不同的概念與原則。
下圖中,在點 P 如何改變可產生 45 度的角
度?
(1992)
(1)
(2)
(3)
(4)
*(5)
平分∠APB
正確答對的
在點 P 畫一個圓
機率
畫一條垂直線
基礎 23%
在點 P 畫圓並作垂直線
精熟 46%
畫一條垂直線並作角平
進階 78%
分
TIMSS數學的評量設計與
台灣學生的表現
TIMSS
• 國際教育學習成就調查委員會(The
International Association for the
Evaluation of Education Achievement,
IEA),
• 國際數學與科學教育成就調查研究的主
要目的在於了解各國學生數學及科學學
習成就及其與各國文化背景、教育環境
等影響因子之相關性,並進一步作國際
間之比較分析。
FIMSS
• 第一次國際數學與科學教育成就調查於
1970年舉行,共有19個國家參與。
• The First International Mathematics
and Science Study. (FIMSS)
SIMSS
• 經十年後,1980年進行第二次國際數學與
科學教育成就調查,有24個國家參與。
• The Second International Mathematics
and Science Study.(SIMSS)
• 我國曾於1987年5月經IEA總部同意,引用第二次國際
數學與科學教育成就調查工具,在我國進行測驗(但不是
正式參加),由國立台灣師範大學科學教育中心負責執行
,以了解我國國小、國中及高中學生數學及科學成就在
國際上所佔的地位。
TIMSS
• IEA自1990年開始推動進行「第三次國
際數學與科學教育成就研究(The
Third International Mathematics and
Science Study, TIMSS)」,1995年
有45國參加。
TIMSS-R
• 第三次國際數學與科學教育成就研究後
續調查(稱為TIMSS REPEAT,
TIMSS-R)於1999年舉辦,調查對象
為國二學生(13歲群),共有38個國家參
加(含臺灣)。
• 為了解我國學子數學與科學教育學習成
就,並與世界主要國家相互觀摩溝通,
國科會委託師大科教中心辦理我國參加
TIMSS-R的相關工作,並已順利完成。
此為我國首次正式參與大規模國際性學
生學習成就調查。
TIMSS-R
• TIMSS-R的成績分析統計結果已經得知
,我國學童表現優異,在科學方面的總
成績位居所有參加國之第一名,數學方
面居第三名,但與第一、二名之成績無
顯著差異。
TIMSS 正式確定
• 鑒於世界各國對國際數學與科學教育成
就研究的熱烈反應,IEA計劃往後每四
年辦理國際數學與科學教育成就研究一
次,並改名為國際數學與科學教育成就
趨勢調查(Trends in International
Mathematics and Science Study , 簡
稱TIMSS )。
TIMSS 1999(數學)
• TIMSS 1999的調查對象為國中二年級
學生 ,共38國
國二總排名:3(新加坡、韓國、臺灣、香港、日本)
代數
分數與數感
測量
幾何
資料呈現與
分析、機率
1
3
4
4
3
http://timss.bc.edu/timss1999i/publications.html
TIMSS 1999(科學)
• TIMSS 1999的調查對象為國中二年級
學生 ,共38國
國二總排名:1(新加坡、韓國、臺灣、香
港、日本)
物理
化學
生命科學
地球科學
環境科學
科學探究
與科學本
質
2
1
1
3
2
4
http://timss.bc.edu/timss1999i/publications.html
TIMSS 2003(數學)
• TIMSS 2003的調查對象包括國小四年
級(26國)及國中二年級學生(48國):
小四總排名:4(新加坡、香港、日本)
數
測量
幾何
數型和關
資料呈現
係
與分析
3
3
4
4
3
• 韓國四年級未參加
•
http://timssandpirls.bc.edu/timss2003i/conference_IR.html
TIMSS 2003(數學)
• TIMSS 2003的調查對象包括國小四年
級(26國)及國中二年級學生(48國):
國二總排名:4(新加坡、韓國、香港、台灣、日本)
數
代數
測量
幾何
資料呈現
與分析
4
3
4
3
3
TIMSS 2003(科學)
• TIMSS 2003的調查對象包括國小四年
級(26國)及國中二年級學生(48國):
小四總排名:2(新加坡、台灣、日本、香港)
生命科學 物理科學 地球科學
3
3
1
• 韓國四年級未參加
TIMSS 2003(科學)
• TIMSS 2003的調查對象包括國小四年
級(26國)及國中二年級學生(48國):
國二總排名:2(新加坡、台灣、韓國、香港)
生命科學
化學
物理
地球科學 環境科學
2
1
3
4
2
TIMSS 2007(數學)
• TIMSS 2007的調查對象包括國小四年
級(37國)及國中二年級學生(50國):
小四總排名:3(香港、新加坡、臺灣、日本)
數
幾何圖形與測量 資料呈現與分析
3
4
4
認知
應用
推理
3
3
3
• 韓國四年級未參加
•
http://timssandpirls.bc.edu/TIMSS2007/intl_reports.html
TIMSS 2007(數學)
• TIMSS 2003的調查對象包括國小四年
級(26國)及國中二年級學生(48國):
國二總排名:1(新加坡、韓國、香港、台灣、日本)
數
代數
測量
幾何
資料呈現
與分析
3
1
1
3
認知
應用
推理
2
3
1
TIMSS 2007(科學)
• TIMSS 2007的調查對象包括國小四年
級(37國)及國中二年級學生(50國):
小四總排名:2(新加坡、台灣)
生命科學 物理科學 地球科學
3
4
3
認知
應用
推理
8
2
1
• 韓國四年級未參加
TIMSS 2007(科學)
• TIMSS 2007的調查對象包括國小四年
級(37國)及國中二年級學生(50國):
國二總排名:2(新加坡、台灣)
化學
物理
地球科學
1
4
1
生物
2
認知
應用
推理
1
2
5
TIMSS 2011 試題評量架構
• TIMSS 2011包含了三種架構— 數學、科
學及背景問卷。
• 數學
– 四年級:數、幾何圖形與測量、資料呈現
– 八年級:數、代數、幾何、資料與機率
• 科學
– 四年級:生活科學、自然科學、地球科學
– 八年級:生物、化學、物理、地球科學
• 認知領域---認知、應用與推理。
2011 TIMSS數學架構
TIMSS 2011 內容領域
TIMSS 2011 認知領域
2011 TIMSS 科學架構
TIMSS 2011 內容領域
TIMSS 2011 認知領域
TIMSS試題簡介
TIMSS 1999試題
http://www.dorise.info/DER/01_timss_1999_html/t1999_04_download.html
TIMSS 2003試題
http://www.dorise.info/DER/01_timss_2003_html/t2003_04_download.html
TIMSS 2007試題
http://www.dorise.info/DER/01_timss_2007_html/t2007_04_download.html
PIRLS簡介
http://timss.bc.edu/
http://lrn.ncu.edu.tw/pirls/
促進國際閱讀素養研究
(PIRLS)
• PIRLS全名為Progress in International
Reading Literacy Study,是由國際教育成就
調查委員會(International Association for
the Evaluation of Educational Achievement;
簡稱IEA)所主持的計畫,又譯為「國際閱讀素
養評比」。
•是五年一次對兒童讀寫能力的評量以及對讀
寫政策及實作的評鑑。
• 第一次在2004年舉辦,然後2006年,接下來
是2011年;五年一循環,台灣在2004年加入。
國際閱讀素養評比(PIRLS)
• 2006的調查有45個國家(地區)參加。
•閱讀測驗的內容包含故事體與說明文,並將
閱讀歷程分為四個層次:提取特定的觀點、
推論、詮釋並整合訊息和觀點、檢驗或評估
文章的特性。
•其中前二者屬於直接歷程,後二者屬於解釋
歷程。
•國內PIRLS的評量工作主要由中央大學學習
與教學研究所柯華崴老師負責。
PIRLS 2011
• 分成PIRLS及 prePIRLS(內容相同但
難度較低)兩種,以測量在學四年且平
均年齡在9.5歲以上的學童。
• 參加國家與地區一共有53個,北半球施
測時間在2011年四~五月。
PIRLS對閱讀素養的定義
•
•
•
•
•
學生能夠理解並運用書寫語言的能力
能夠從各式各樣的文章中建構出意義
能從閱讀中學習
參與學校及生活中閱讀社群的活動
由閱讀獲得樂趣
2006 結果
• 名列前五名者:俄國、香港、加拿
大(亞伯達省)、新加坡、加拿大
(卑斯省)
• 俄國、香港、新加坡由2001到
2006有長足進步
台灣學生閱讀成就
• 45個國家和地區參加PIRLS 2006
研究,全體學生平均分數500分。
• 最高分國家學生平均565(3.3)分
• 台灣學生平均536(2.0)分
• 排名22
香港
新加坡
台灣
22
名
PISA
PISA
• The Programme for International
Student Assessment (PISA) is a
triennial world-wide test of 15-yearold schoolchildren's scholastic
performance, the implementation of
which is coordinated by the
Organisation for Economic Cooperation and Development (OECD).
PISA was first mooted in 1997.
What is the OECD?
• 具有 30 個會員國,旨在推動民主和
市場經濟的國際組織。
• 提供資料的比較、分析和展望
• 以便政府能夠:
-
比較政策經驗
對一般問題尋求解答
識別好的政策
調整政策
別稱「富國俱樂部」
廣布全球的國際組織
OECD Member Countries
Comparison with TIMSS
and PIRLS
• Trends in International Mathematics
and Science Study (TIMSS)
• Progress in International Reading
Literacy Study ( PIRLS )
• OECD的會員國與夥伴國家約略涵蓋
90%的世界經濟體。
PISA 簡介
• 目的:評量15歲學生面對未來生活挑戰的準備程度,亦即學
生使用習得知識、技能以面對真實挑戰的能力,而非僅是對
學校課程的精熟程度。
• 對象:選擇15歲學生,是因為多數OECD國家這個年齡的學
生正完成義務教育,適合評鑑學生知識、技能、及態度方面
累積近十年的教育成效。
• 內涵: PISA調查旨在檢驗學生重要學習領域的表現,同時
觀察大範圍的教育產出,包括學生的學習動機、對自己與其
學習策略的信念。
PISA的規模
 第ㄧ次調查2000年有43個國家、第二次調查
2003年有41國、第三次調查2006年有56國家、
第四次PISA 2009共有65個地區參加,第五次
PISA 2012將有68個地區參加。
 每個國家預試施測的參與學生約在800~1,200
之間
 每個國家正式施測的參與學生約在
4,500~10,000之間
PISA 2012 評量規模
OECD 國家
90
夥伴國或經濟體
PISA評量週期
 此評量每三年調查一次,自2000年開始至
2015年
 每一週期針對主要領域進行深度了解
 2000 (閱讀) 、2003 (數學) 、2006 (科學)
、2009 又回到閱讀、2012回到數學
PISA 評量概述
• 閱讀:
– 評量學生了解與評鑑閱讀文本的實質能力
– 了解學生以閱讀為工具的能力
• 數學:
– 評量學生成功解決數學問題的知識或想法
– 了解學生對數學的反思與應用能力
• 科學
– 評量學生在日常生活運用科學知識的能力
– 了解學生有效表達科學想法的能力
PISA 閱讀素養定義
• 定義:對文本的理解、應用、省思及投入能力,目的在達成
個人目標、發展個人知識與潛能、並有效參與社會。除了解
碼與字面理解以外,閱讀素養同時包含解釋和省思,以及應
用閱讀完成生命目標的能力。
• PISA 閱讀素養評量焦點是透過閱讀進行學習的能力,而不
是學習閱讀,因此並不是評量最基礎的閱讀技能。
• 包含閱讀投入資訊蒐集,投入是指 讀者的興趣 、自發性、
社會互動及閱讀學習。
PISA 閱讀評量內涵
• 閱讀目的四種情境:個人、教育、職業、公眾
• 閱讀素材形式:
–
–
–
–
連續文本:不同的文體,例如敘事、說明、論說。
非連續文本:包括圖片、表格、清單。
混合性文本:包括連續與非連續格式。
多重文本:包括獨立文本(相同或不同格式)為特定目
的而並置。
• 五個認知面向:擷取訊息、形成理解或解釋、省思
與評鑑文本內容或形式。
PISA 數學素養定義
• 定義:個體在不同脈絡情境中形成、運用以及詮釋數學的能
力,內涵包含數學推理、運用數學概念、程序、事實以及工
具來描述、解釋和預測現象。PISA評量運用數學素養的概念,
描述學生面對各式各樣牽涉數量、空間、機率等數學概念的
問題情境時,能有效進行分析、推理以及溝通的能力。
• 數學領域及概念:數量、空間與形狀、改變與關係、不確定
性(包括:普通計算、數學思考與分析,評量學生應用機率、
空間及圖形、量化推理等數學概念、代數、幾何) 。
PISA 數學素養評量內涵
• 數學能力的三個層面:複製(簡易數學運算) 、連
接(組織想法解決直接的問題)、反思(寬闊的數
學思維)
• 數學應用領域:側重個人、社會、全球場景的應用
–
–
–
–
個人的
教育與職業的
公共的
科學的
PISA 科學素養定義
• 定義:從個體的科學知識出發,同時包含運用科學知識形
成問題、獲得新知、詮釋科學現象以及針對科學議題進行
證據本位的推論。這些能力即現代社會工作對人力素質的
要求。
• PISA科學素養強調學生對於科學特徵的理解是人類知識
和探索的一種型態,科學素養同時包含對於科學與科技如
何形塑物質、知識以及文化環境的覺察,並能投入科學相
關議題成為能省思的公民。
• 科學領域包含物理、生命、地球與太空、和科技等系統。
PISA 科學評量內涵
• 三類科學任務或歷程: 辨識科學議題、解釋科學
現象、運用科學證據
• 自然科學應用的領域側重個人、社會、與全球場
景的應用
–
–
–
–
–
健康
自然資源
環境
災害
科學與科技的突破
PISA 評量週期
• PISA評量每三年調查一次,自2000年開始。
• 每次調查以一個領域為主進行深度了解,
另二個領域為輔。2000從閱讀開始、2003
數學、2006科學、2009 閱讀、 2012 數學 。
PISA 調查對象
• 包含學生與學校兩方面:
– 學生:測驗題本和學生問卷
(測驗當日完成,全部時間約為3小時15分)
– 學校:學校問卷
(測驗之日前完成,由校長或其指定人員完成)
• 學生測驗題本混合選擇題和建構反應題,
問卷則大部份以勾選方式填答。
•
•
•
•
PISA 規模
2000年有43個國家/地區
2003年有41國家/地區
2006年56國家/地區
PISA 2009共有68個國家/地區參加 (19個國家/
地區參加ERA)
• PISA 2012 68個國家/地區參加 ( 30個國家/ 地
區參加電腦化測驗) 。
• 每個國家正式施測的學生人數約4,500~10,000之間。
臺灣 PISA 2009 學生表現
臺灣 PISA 2009 樣本描述
• PISA 2009共有68個國家或地區,超過47萬名學生參
與。
• PISA 2009也首次評量15歲學生對數位文本閱讀、理解
和應用的能力(ERA)。臺灣也將在PISA 2012加考這個
項目。
• 臺灣 PISA 2009 受測樣本共計158所學校,6,251名學
生參與,實際出席考試學生為5,834名。
– 地理區域學校與學校類型與學生分配如下頁
PISA 2009 臺灣不同地理區域學校數與學生數分配比例
區域
學校數
學生數
學生百分比(%)
北區
69
2760
44.2
中區
41
1631
26.1
南區
46
1780
28.5
東區
2
80
1.3
總計
158
6251
100
PISA 2009 臺灣不同類型學校數與學生數分配比例
學校類型
學校數 學校數% 學生數
學生數%
756
57.2% 87927
國中
26.8%
高中
80
6.1% 35005 10.7%
高職
79
6.0% 31812 9.7%
148
11.2% 84371 25.7% 69.5%
高中職 綜合高中(高中職)
完全中學(國高中)
110
8.3% 34951 10.7%
複合學校(國高中職)
76
5.8% 41645 12.7%
72
5.5% 12293
5專
3.7%
1321 100.0% 328004
100.0%
Total
臺灣學生閱讀素養表現
閱讀試題範例R433
守財奴和他的金子
伊索寓言
有一個守財奴賣掉他所有的東西,買了一塊金子。他把金子埋在
一座老牆旁邊的地洞裡,每天都要去看一下。守財奴的一個工人
發現他常到那個地方去,決定監視他的行動。工人很快就發現藏
寶的秘密,於是挖了金子並將它偷走。守財奴再來的時候,發現
洞裡空空如也,於是撕扯著自己的頭髮嚎啕大哭。一個鄰居看到
守財奴如此悲痛,知道原因後說:「別再難過了!去搬塊石頭,
把它放在原來的洞,然後想像那金子仍在裡面,這樣做對你來說
效果是差不多的。因為金子在的時候,其實你沒擁有它,因為你
並沒讓它發揮一點作用。」
問題1:
• 讀下面的句子,並根據文中事件發生的先後順序加
以編號。
□守財奴決定用他所有的錢買一塊金子。
□有人偷了守財奴的金子。
□守財奴挖了個洞,把他的寶藏埋了進去。
□守財奴的鄰居告訴他用石頭代替金子。
• 滿分代號1:四個全對,依次為1、3、2、4。
問題2:
• 守財奴怎麼得到一塊金子的?
• 滿分代號1:指出他賣掉了所有的東西。可
以改寫或直接引用文章的內容。
– 他賣掉了他的所有。
– 他賣掉了他所有的東西。
問題3:
對話者2會說什麼來支持他自己的觀點?
這裡是閱讀了〈守財奴和他的金子〉後的兩個人對話。
那鄰居真是討人
嫌,他大可以用
比石頭好一點的
東西來代替金子。
對話者1
不,他不行。
石頭在這故事
中是很重要的。
對話者2
• 滿分代號1:認識到故事的含義需要透過無用或無
價值的東西替代金子來表達。
– 需要用沒有價值的東西代替才能說明意思。
– 石頭在這故事中很重要的,因為整個重點是守財奴埋
石頭所得到的好處和埋金子一樣。
– 如果用比石頭好一點的東西代替金子,那就會喪失本
意,因為埋下的東西應該是真的毫無用處的東西。
– 石頭沒一點用處,但對於守財奴來說,金子也一樣。
– 好一點的東西是他用得著的東西──但他不用金子,這
就是那個人要說的意思。
閱讀試題範例R458
遠距辦公
• 未來的方式
•
想像一下,「遠距辦公」是件多麼美好的事,在電信的高速公路上班,你所有的工作都
是在電腦上或是藉著電話完成!你不再需要讓你的身軀擠塞在擁擠的公車或火車上,也
不必浪費好幾個小時在上班的往返路途上。你可以在任何你想工作的地方工作—想想,
所有的工作機會也將因此而開啟!
怡君
• 即將形成的災難
•
縮短通勤的時數和減少通勤的體力耗損,很明顯的是一個好主意。但是,這樣的目標應
該藉由改善大眾運輸,或確保工作地點是在居家附近來達成。遠距辦公應是每個人生活
方式一部分的雄心想法,只會導致人們變得越來越專注於自身。難道我們還要更進一步
惡化我們的社會歸屬感嗎?
志明
問題1
「未來的方式」和「即將形成的災難」之間有什麼關係?
A 它們使用不同的論點達到相同的一般結論。
B 它們以相同的文體書寫,但針對的是完全不同的議題。
C 它們表達相同的一般看法,但是形成不同的結論。
D 它們表達在相同的議題上的對立看法。
滿分代號1: D
試題難易度: 549(水準3)
答對率:0.52
問題2:
• 哪一種工作很難遠距辦公?請為你的答案提供一個理由。
• 滿分代號1:指出一種工作,並且給予合理的解釋,說明為什麼從
事這種工作的人不適合遠距辦公。回答必須要詳加陳述為什麼這
項工作需要人在工作現場。
– 建築者。很難在任何地點都可以用木頭和磚頭工作。
– 運動員。你需要真的在那裡從事運動。
– 水電工。你無法從你的家修理別人家的水槽。
– 挖排水溝。因為你需要在那裡。
– 護士。很難透過網際網路去檢測病人一切安好。
• 試題難易度: 524(水準3)
• 答對率:0.75
臺灣學生閱讀素養表現
• 平均數和標準差:臺灣(495、 86)與OECD (493、93)並
無太大差異。
• 中文版 PISA 評量:除上海為簡體中文,其餘臺灣、澳門
和香港均用繁體中文。
• PISA 2009結果顯示:
– 上海與香港閱讀素養表現明顯優於臺灣與澳門。
– 臺灣變異程度大:澳門的標準差最小,臺灣的標準差最大。
– 臺灣女生表現優於男生:臺灣學生的性別差距為37分,即臺
灣男生的閱讀素養約落後女生一學年左右。
臺灣與前10名國家在閱讀素養表現的排名
國家
臺灣
臺灣2006
上海
韓國
芬蘭
香港
新加坡
加拿大
紐西蘭
日本
澳洲
荷蘭
澳門
OECD整體
OECD平均
排名
23
16
1
2
3
4
5
6
7
8
9
10
28
平均數
495
496
556
539
536
533
526
524
521
520
515
508
487
492
493
標準差
86
84
80
79
86
84
97
90
103
100
99
89
76
98
93
男生平均數
477
486
536
523
508
518
511
507
499
501
496
496
470
475
474
女生平均數
514
507
576
558
563
550
542
542
544
540
533
521
504
508
513
差異分數
-37
-21
-40
-35
-55
-33
-31
-34
-46
-39
-37
-24
-34
-33
-39
臺灣與參照國家(上海、韓國、芬蘭、香港
、新加坡、日本、澳門)的比較
• 上海與新加坡首次參與PISA調查
– 韓國、日本、香港與澳門2000年開始參加
• 臺灣閱讀素養結果表現:
– 省思與評鑑分測驗表現相對較低
– 統整與解釋分測驗的表現略優,分測驗差異不
甚明顯
– 女生表現優於男生
臺灣與參照國家在省思與評鑑分測驗的對照
國家
臺灣
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
平均數
493
557
542
536
540
529
521
481
496
494
標準差
88
85
86
87
87
100
111
79
102
97
男生平均數 女生平均數
472
531
521
506
520
511
498
460
478
472
514
582
565
565
562
548
545
502
516
517
差異分數
-41
-50
-44
-59
-42
-37
-47
-42
-38
-44
臺灣與參照國家在統整與解釋分測驗的對照
國家
臺灣
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
平均數
499
558
541
538
530
525
520
488
490
493
標準差
87
81
81
88
89
101
102
77
100
94
男生平均數 女生平均數
483
540
526
513
516
511
502
473
475
476
515
576
557
564
546
539
538
504
505
512
差異分數
-32
-35
-31
-50
-30
-28
-36
-31
-30
-36
臺灣與參照國家在擷取與檢索分測驗的對照
國家
臺灣
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
平均數
496
549
542
532
530
526
530
493
491
495
標準差
105
96
87
99
94
103
110
88
104
101
男生平均數
女生平均數
差異分數
477
531
527
503
516
510
512
477
475
475
516
568
558
562
545
543
548
509
507
515
-39
-37
-32
-59
-28
-32
-36
-31
-32
-40
臺灣學生的連續與非連續文本表現
• PISA 2009有大量試題是連續文本,臺灣表現與
整體表現相似:平均數496、標準差88
– 非連續文本:臺灣表現略優於整體表現(500vs.495),變異
程度也略微擴大(93vs. 86)
– 連續文本和非連續文本的性別差異:女生優於男生
• 連續文本: OECD國家女生明顯優於男生,稍大於整體(42
vs.39)
• 非連續文本:亦是女生優於男生(36分),然差距小於整體
– 臺灣學生在二種文本形式表現的性別差距組型與OECD平均
相似,連續文本男女差距達39分,非連續文本性別差距為36
分,而臺灣整體閱讀素養表現的男女差距為37分。
臺灣在連續文本閱讀分測驗表現
國家
臺灣
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
所有學生
平均數
標準差
496
564
538
535
538
522
520
488
492
494
88
82
80
86
88
100
104
80
100
95
男生平均數
性別差異
女生平均數
差異分數
477
541
520
507
520
506
501
469
475
473
516
587
558
563
559
538
541
507
509
515
-39
-45
-38
-56
-38
-32
-39
-37
-35
-42
臺灣在非連續文本閱讀分測驗表現
國家
臺灣
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
所有學生
平均數
標準差
500
539
542
535
522
539
518
481
492
493
93
84
82
89
85
95
99
76
99
95
性別差異
男生平均數 女生平均數
483
522
527
508
510
524
499
467
477
475
518
557
559
562
536
553
537
495
507
511
差異分數
-36
-35
-32
-54
-26
-29
-38
-28
-30
-36
PISA 2009不同閱讀水準定義
• PISA 2000:國家整體閱讀素養表現量尺的
平均數設定為500,標準差為100。
• PISA 2009:作業難度範圍分七個閱讀水準
水準1b最低、水準1a、水準2、水準3等,最
高水準6。
– 水準5以上:學生精確閱讀,處理與預期不符的資
訊,辨識關鍵細節,並進行複雜的推論。
– 水準3 :學生能勝任多數生活基本的閱讀需求,是
PISA定義運用閱讀進行學習的基礎素養。
臺灣學生不同閱讀素養水準人數分配
• 臺灣整體閱讀素養表現:與OECD平均相當,然達到水準
5以上的學生比例僅5.2%,尚不及OECD的7.6%,當然更
遠遠落後上海的19.4%和香港的12.4%。
• 臺灣最多學生達到水準3 :與OECD國家相同,達到此水
準的學生能面對日常生活活動的閱讀需求。
• 臺灣未達水準2 :高達15.6%,與其他閱讀表現好的國家
相比(如上海4.1%、香港8.3%),臺灣學生在高、低閱
讀水準學生人數的比例尤值關注。
臺灣與參照國家在不同閱讀水準學生人數百分比對照
水準
國家
未達1b
(262.04
以下)
1b
(262.04~
334.75)
1
(334.75~
407.47)
2
(407.47~
480.18)
3
(480.18~
552.89)
4
(552.89~
625.61)
5
(625.61~
698.32)
6
(698.32以
上)
臺灣
0.7
3.5
11.4
24.6
33.5
21.0
4.8
0.4
11.5
24.4
34.0
21.8
臺灣2006
3.8
4.7
上海
0.1
0.6
3.4
13.3
28.5
34.7
17.0
2.4
韓國
0.2
0.9
4.7
15.4
33.0
32.9
11.9
1.0
芬蘭
0.2
1.5
6.4
16.7
30.1
30.6
12.9
1.6
香港
0.2
1.5
6.6
16.1
31.4
31.8
11.2
1.2
新加坡
0.4
2.7
9.3
18.5
27.6
25.7
13.1
2.6
日本
1.3
3.4
8.9
18.0
28.0
27.0
11.5
1.9
澳門
0.3
2.6
12.0
30.6
34.8
16.9
2.8
0.1
OECD整體
1.1
4.8
13.8
24.4
27.9
19.9
7.0
1.0
OECD平均
1.1
4.6
13.1
24.0
28.9
20.7
6.8
0.8
臺灣學生數學素養表現
數學試題範例 M266
木匠
• 木匠有32公尺的木材,想要在花圃周圍做邊界。 他
考慮將花圃設計成以下的造型。
問題1 :
• 上面花圃的設計是否可以用長度32公尺的木板
來圍成,在下表中的每一種設計圈出是或否。
花圃的設計
A 設計
B 設計
C 設計
D 設計
•
•
•
•
是否能用長度的木板圍成
是/否
是/否
是/否
是/否
滿分代號 2:答對四項(A是、 B否、 C是、 D是)
部分分數代號1: 答對三項
試題難易度:687分(水準6)
答對率(OECD 國家):20.2%
臺灣學生數學素養表現
• 2009東亞國家學生數學素養表現優異。
• 數學量尺以 2003為基準,臺灣 2006(平均549
分),與芬蘭、香港、韓國等三個國家並列世界第
一。
• 2009參與國由56增至68,臺灣(平均543分)相較
2006退步6分,排名第五。
– 與第四名的韓國的差異未達統計顯著,在兩次
PISA數學表現優秀的國家中,臺灣學生的個別
差異都是最大(103)。
PISA 2006與PISA 2009數學素養國家排名
數學
名次
1
2
3
4
5
6
7
8
9
10
12
國家
臺灣
芬蘭
香港
韓國
荷蘭
瑞士
加拿大
列支敦斯登
澳門
日本
紐西蘭
OECD平均
2006
平均數(標準差)
549(103)
548(81)
547(93)
547(93)
531(89)
530(97)
527(86)
525(84)
525(93)
523(91)
522(93)
498(92)
國家
上海
新加坡
香港
韓國
臺灣
芬蘭
列支敦斯登
瑞士
日本
加拿大
澳門
2009
平均數(標準差)
600(103)
562(104)
555(95)
546(89)
543(105)
541(82)
536(88)
534(99)
529(94)
527(88)
525(85)
496(92)
臺灣學生不同數學素養水準人數分配
• PISA 數學素養分為六個精熟水準:具體描
述學生數學表現概況。
– 臺灣高分群表現(水準5以上): 佔28.5%,
上海佔50.4%、新加坡35.6%、香港30.7%。
– 臺灣數學低分群(水準1及未達水準1): 學生
比例是最高。
臺灣與參照國家在各數學素養水準的學生比例分配
低於水準1
(未達
357.8 )
臺灣
4.2
臺灣2006
3.6
上海
1.4
韓國
1.9
芬蘭
1.7
香港
2.6
新加坡
3.0
日本
4.0
澳門
2.8
OECD整體
9.3
OECD平均
8.0
國家
水準1
(357.8~
420.1 )
8.6
8.3
3.4
6.2
6.1
6.2
6.8
8.5
8.2
15.5
14.0
數學素養水準
水準2
水準3
水準4
(420.1~
(482.4~
(544.7~
482.4 )
544.7 )
607 )
15.5
20.9
22.2
14.3
19.4
22.4
8.7
15.2
20.8
15.6
24.4
26.3
15.6
27.1
27.8
13.2
21.9
25.4
13.1
18.7
22.8
17.4
25.7
23.5
19.6
27.8
24.5
22.7
23.5
17.3
22.0
24.3
18.9
水準5
(607~
669.3 )
17.2
20.1
23.8
17.7
16.7
19.9
20.0
14.7
12.8
8.9
9.6
水準6
(超過
669.3 )
11.3
11.8
26.6
7.8
4.9
10.8
15.6
6.2
4.3
2.8
3.1
臺灣PISA 2006 及 2009 學生數學素養不同水準人
數比例分配對照
• 臺灣學生2009的整體表現
略低於2006。
• 臺灣在水準6的比例接近。
• 水準5比例下降3%。
• 中低分群人數比例略微提
高。
臺灣學生科學素養表現
科學試題範例 S493
運動
定期而且適度的運動對我們的健康有益。
問題1 :
• 為什麼當你在做運動時比起當你的身體在休息時,你必須更用力
呼吸?
• 滿分代號 11:為了清除增加的二氧化碳濃度,並且提供更多氧給
你的身體。(不可以用「空氣」代替「二氧化碳」或「氧」)
– 呼吸加快可以讓更多的氧進入血液,並且移除更多二氧化碳。
• 滿分代號 12:為了清除增加的二氧化碳濃度,並且提供更多氧給
你的身體。(不可以用「空氣」代替「二氧化碳」或「氧」)
– 因為我們必須除去積聚起來的二氧化碳。
• 試題難易度:583 分(水準四)
• 答對率(OECD 國家):45.2%
臺灣學生科學素養表現
• 2009東亞國家學生科學素養表現優異。
• 科學素養前五名:上海、香港、新加坡、日本
與韓國。 (上海和新加坡為2009 新加入)
• 科學調查以PISA 2006為基準,臺灣2006科
學第四名,與第三名的加拿大未達顯著差異。
• 臺灣2009平均520分,相較2006年退步12分,
第十二名,與第十和十一名的澳洲、荷蘭沒有
顯著差異。
PISA 2006與PISA 2009科學素養國家排名
科學
名次 國家
1
2
3
4
5
6
7
8
9
10
11
12
18
芬蘭
香港
加拿大
臺灣
愛沙尼亞
日本
紐西蘭
澳大利亞
荷蘭
列支敦斯登
韓國
斯洛維尼亞
澳門
OECD
2006
平均數
(標準差)
563(86)
542(92)
534(94)
532(94)
531(84)
531(100)
530(107)
527(100)
525(96)
522(97)
522(90)
519(93)
511(78)
500(95)501(94)
2009
國家
上海
芬蘭
香港
新加坡
日本
韓國
紐西蘭
加拿大
愛沙尼亞
澳大利亞
荷蘭
臺灣
澳門
平均數
(標準差)
575(82)
554(89)
549(87)
542(104)
539(100)
538(82)
532(87)
529(90)
528(84)
527(101)
522(96)
520(87)
511(76)
501(94)
臺灣學生不同科學素養水準人數分配
• PISA 科學素養分為六個精熟水準:具體描
述學生科學的表現概況。
• 水準5以上高分群:臺灣佔8.8%,上海佔
24.3%、新加坡19.9%、芬蘭18.7%、日本
17%、香港16.2%與韓國11.6%。
• 水準1以下低分群:值得注意臺灣低分群比
例(11.1%)也頗高,僅次於新加坡
(11.5%)。
臺灣與參照國家在各科學素養水準的學生比例分配
科學素養水準
國家
低於水準1
水準1
水準2
水準3
水準4
水準5
水準6
(未達334.94 ) (334.94~409.54 ) (409.54~484.14 ) (484.14~558.73 ) (558.73~633.33 ) (633.73~707.93 ) (超過707.93 )
臺灣
臺灣2006
上海
韓國
芬蘭
香港
新加坡
日本
澳門
OECD整體
OECD平均
2.2
1.9
0.4
1.1
1.1
1.4
2.8
3.2
1.5
5.4
5.0
8.9
9.7
2.8
5.2
4.9
5.2
8.7
7.5
8.1
14.6
13.0
21.1
18.6
10.5
18.5
15.3
15.1
17.5
16.3
25.2
24.8
24.4
33.3
27.3
26.0
33.1
28.8
29.4
25.4
26.6
37.8
27.1
28.6
25.8
27.9
36.1
30.4
31.2
32.7
25.7
29.5
22.7
19.6
20.6
8.0
12.9
20.4
10.5
15.4
14.2
15.3
14.4
4.5
7.3
7.4
0.8
1.7
3.9
1.1
3.3
2.0
4.6
2.6
0.2
1.1
1.1
臺灣PISA 2006 及 2009 學生科學素養不同水準人
數比例分配對照
• 臺灣學生2009的整體表
現略低於2006 。
• 臺灣在水準5和6的高分
群比例下降幅度6%。
• 水準2和水準3人數比例
有提高。
• 水準1和低於水準1的低
分群的學生人數比例則
變動不大。
臺灣學生的學習機會均等
• 落後學生不同表現水準的比例是學習成就落差的重要資訊
– 學習成就落差較大或落後學生比例較大均視為學校系統
未能提供學生平等且充分知能的警訊。
• 以閱讀素養未達基準線水準的落後學生比例討論
– 臺灣平均落後15.6%(較OECD平均低)
– OECD國家平均落後比例為18.8% ,上海4.1%、韓國
5.8%、芬蘭8.1%、香港8.3%、新加坡12.5%、日本
13.6%、澳門14.9%
– 華語區:臺灣落後比例較高,而上海則是最低
PISA 討論均等的方法
• PISA 進一步利用社經、文化地位指標(ESCS)與學生表現
間的關係,測量學生表現與背景間的關聯強度,分析教育均
等議題。
– 學生表現變異被社經背景所解釋的比例愈高,代表學生表
現與背景關聯愈強,即教育均等愈低。
• OECD國家,平均有14%的閱讀表現變異與PISA社經文化地
位指標有關。新加坡ESCS解釋力高於OECD平均,而芬蘭、
韓國、日本、臺灣、澳門、香港、上海低於OECD平均。華
語區以上海(12.3%)最高,澳門(1.8%)最低,臺灣(11.8%)略
低於上海。
台灣學生學習成就
評量資料庫
TASA建置主要目的1
一、建立國民中小學、高中及高職學生學習成就
長期資料庫,以追蹤、分析學生在學習上變遷
之趨勢,進而檢視目前課程與教學實施成效。
二、提供完整、標準化的學習成就資料,作為分
析學生學習成就上差異表現變項資料,以評估
學生未來在學術方面能力之發展與社會期許。
三、瞭解國內學校教學及學生學習成效之現況,
作為課程與教學政策改進之參考,並為縣市政
府教育局及學校推動補救教學之重要參據。
TASA建置主要目的2
四、提供各縣市學生學習表現資料,建立與縣市
合作機制,以擴大資料庫應用效益。
五、以資料庫的量化資料,提供國內外相關研究
人員,深入探討學生學習成就方面的相關政策
議題。
六、建立本國學生學習成就評量資料庫,同時考
慮與國際接軌,利於加入國際比較行列,藉以
瞭解臺灣教育之獨特面與優缺點。(
http://tasa.naer.edu.tw/plan.htm )
BIB設計(1)
• Balanced Imcomplete Block Design(
平衡不完整區塊設計,簡稱BIB設計)
常用在大型的測驗計畫中。
• 假定試題總共有63題,如果一節課學生
僅能做完27題,那麼施測時,學生需要
二個多小時的時間始能做完所有的試題
。若想僅用一小時的時間進行施測,則
需要想個法子。
BIB設計(2)
• 如果將63題分成7個區塊(block),每
一個區塊有9個題目,每一份試卷(稱為
booklet)由3個區塊所組成,則每一份
試卷有27個題目,因此在一小時之內,
每一個學生可以做完一份試卷。
• 若允許每一份試卷之間只能有一個區塊
的試題是相同的,則63個題目總共可以
組成7份試卷。
BIB設計(3)
題本序號
區塊1
區塊2
區塊3
S1
M1
M2
M4
S2
M2
M3
M5
S3
M3
M4
M6
S4
M4
M5
M7
S5
M5
M6
M1
S6
M6
M7
M2
S7
M7
M1
M3
BIB設計(4)
• 因為每一個學生只作答了一份試卷,只
有27題,不是63題;所以,學者一般認
為估計個別考生的能力是沒有意義的。
• 利用BIB設計的方式所蒐集到的作答反
應資料,通常只用在群體表現的估計,
較少進行個人層次的比較,所以不會提
供個別學生的分數。
感謝!
敬請各位指教!

similar documents