Bayesian Networks in Educational Assessment

演講詳細內容

主題介紹：

今天的題目是，Networks在教育與考試的應用，實際上這是應用的一部份，那麼後面一些BEHIND THE THINGS的東西，我會給大家提到或是點到，我覺得在清華的時候，和今天剛剛在中午的時候聽到，老師同學們會有興趣的是去年九月份一個新推出的托福考試，和有一個新的product，就是測量information communication technology 也是一個新的考試，這是在美國一些新的學校開始使用，因為我們現在的網路科技很發達，所以通訊和information的search都大大地提高，所以在學校就開了一些課程。這些課程對學生的選課有一些要求，如果學生對EMAIL、Information Search 的efficiency不一樣的話，那在上課的時候有不同的問題，那老師就希望學生來上課的時候有一定的Level，技能或知識。如果沒有的話，那希望能提供一門預修的課，讓大家可以增長一下，然後學起來就可以比較得心應手，所以這個考試叫ICT，我將會做一個DEMO。

如何出題？

這個考試就是用來測量這方面的知識技能如何，然後呢，學校就根據這個來分配給學生課程。我們在設立考試的時候，常常是，當我們要給行程建立一個考試，首先我要考數學，如果裡面放一些文法的題這樣對不對？不對，所以我們知道要什麼，考數學，就要一些幾何、運算的東西在裡面，這就是技能和知識的要求，這就是我們想要考的，那我們怎麼知道學生俱不俱備這方面的知識技能呢，我們就要出一些相應的題目，這些題目給大家舉行考試，讓大家來回答這些問題，有些人就會考好，有些人考的不好，那我們就會從考題裡面得到evidence，證據。那麼這些證據怎麼得來呢？透過考試，那我們怎麼辦呢，就把這些證據分析，我們有一套考試理論，把他這個要點提出來，來證明我們是不是能夠support我們這個前面設計考試的這些要求，所以就是說，有考試的要求，我們來設計一些題目，來統計，評價和決定學生俱不俱備這些技能，所以在這個過程中，參與的有考試設計的人，如果說數學的，那就有這方面的專家，怎樣的題，用什麼樣的問題，能夠去考這方面的知識和技能，這就叫出題部門Test Development。這裡面包括Development Item，就是每一個題。那同時，有了這些證據以後，怎麼樣能夠跟要求連繫在一起，在這個中間有一些統計理論，有一些數學模型就叫做Proficiency Model，這些模型，有些其況下，有些模型比較實用，另外一些情況下，有些是另外一些模型比較適合。這個過程有些就叫做Item Response Theory Model。是一個家庭Family，有一參數兩參數三參數，還有Partial Credit，就是部份給分，還有其中一個Model，就是貝絲網路。所以也就是，我們考試的目的是什麼。考試要有目的，還有，我們出題是要考三年級的小朋友呢，還是要考一個大學生，那麼這個目的不一樣，那題目的難度也會不一樣，這就是出題的requirement。那麼成績報告單，應該報告成什麼樣的成績呢，是全部的成績呢，每部份的成績呢，還是說，我在數學運算上的成績不錯，但在邏輯推理上差了點，這就叫做診斷的回餽。有人在2003年提出一個理論，就是根據我們以前那麼多年的考試經驗，就是所有的考試有三點很重要，在這三方面都有很多很多的研究，首先，Fairness，叫做公平，對每個考生要公平，這個公平呢比如說，一道題運算，但是全部都在講football，這種題目男生女生有些不公平，因為football男生比較有興趣，女生比較沒興趣，這種不公平的題目就不能放到裡面去。還有比較如對城市、鄉村的也不行，比如說什麼是摩天大樓，鄉村的人可能就不太知道。所以所有的題目用來在正式考試的時候，都是要先做預測，有一個題目，拿來以後通過正常的考試途徑，首先一開始測試的時候，我們會拿到一個小組的人做試考，比如說有些題目太難，全部人都寫不出來，或是有些題目太簡單，考了沒什麼意思，在做預測之前，首先要做一些review看有沒有這些差距太大，例如男女或黑白人。通過的話就消掉一部份，再做小組試驗，萬一都答錯或都答對，就又消掉一部份，下面這些題目，覺得可能還不錯，但是不確定，這些題目就要送到真正的考試裡面，但是你不知道是那道題，有一些有的考試裡面有用有的沒有，根據考試的人數和地區來決定，這些題目放進去了，但不算分，因為是我們預測的題目，在考卷收回來的時候，我們就會得到信息，一看題目在測試的時候是很完美的，但是在真正考試的題目卻不然，我們就會送回去讓出題的人再修改，或直接不要，故一個題目會經過一個那麼長的過程，然後才會真正用在考試裡。

如何設計？

如果要在設計的時候開始，如果沒有考慮這個題目的有效性，就是這個題目有沒有效，可能會在考完的時候才發現，浪費了太多人力物力，最後還沒有什麼用。所以這個evidence design 我馬上就會講到，就是一個從evidence開始，就是說，我這個題目考這個學生的證據是不是會有效，就從開始設立的時候就把這個考慮進去。所以主要就是說能夠盡可能的去capture整個考試的structure、relationship，從題目和要求包括我們的population(也就是考生)。然後呢，把這個工作，就像我們有資訊的、有教育的，原來資訊的人我們的程序啊什麼的都寫的很好，可是呢，跟教育的目標差了點，教育的人我這些都很懂，可是在運算的時候差了點。那出題的和真正用來統計分析的，和最後用這個成績來做參考來決定你上大學不上大學，得不得教師執照，這些人都組到一起，就是一個teamwork。然而呢，很多時候過去的考試，考完以後，我們有從這個考試裡面學到什麼經驗，例如出題、設計、互相之間的交流、或是過去有一道題目，有點問題，可是以後又跟這道題有點關係，忘記了這道題當時是出了什麼問題了。那麼ETC就把這些東西做一個teamwork，所以呢，這個ETC這個過程就是有一些互動，我們能觀察到的就是學生所能說的和做的，然後我們想知道他有什麼樣的knowledge、skill和ability，我們需要從這個統計出來，然後呢去決定他是不是有這樣的知識和能力，那麼怎麼樣能提供一個環境，同時能夠每次都去找一個人來寫題，這樣很浪費人力物力，我們現在有一個方向：就是自動出題。就是說有一個template，然後呢就是用計算機怎麼樣去知道教育專家的要求，然後去形成一個template，然後用來自動產生一個題目，那麼這個過程形成了一個plateform，把前面的domain做一個分析，比如說要考什麼，什麼是重要的都分析進去，或是有什麼樣的數學模式都放進裡面，形成了一個conceptual的一個framework。然後我們會讓它自動產生一個概率，什麼題在什麼情況之下有一個weight。所以呢，主要來講evidence center design就是說，我們要清楚為什麼我們要測量，測量的是什麼東西，我們的目的是什麼，然後呢我們的成績單報告單，比如說我們考完了數學，我們希望知道的是分部報成績呢還是全部的成績呢，是怎樣一個score report 成績單也會決定我們怎樣設計一個考試。這是一個diagram，叫做CAF。

Proficiency

首先第一點，我們要測量什麼東西？proficiency，知識技能或能力，然後呢，我們要怎樣來測量呢？就要通過一些證據，這證據從那裡來？就從題目或是project，還有如果是藝術的話，就是有一些drawing或是一些mutli-media，這些都是考題，都是我們能夠得到證據的地方，再來第三點，我們應該在那裡去測試，就是環境啦，再來是how much？多少information我們需要，是兩道題還是二十題，然後呢我們把這些題目組合起來來成為一個sampling的model，再來是給同學紙和筆來答呢還是在網路上來答呢，還有的呢就是說presentation的form，也會考慮到。所以student的技能有一個這樣的clean的structure，比如說這個人的communication的skill，下面包括reading 、writing、listening和speaking。一般的情況下，我們每個的考試有個主要的目的，像是考英文或是考數學，或者考大學有部份英文一部份中文。TEST MODEL，就是我們考題裡面，也許是說mutliple choice，或是對或錯，還有就是運算題，算下來可能得一分，或滿分。那麼在這個包括evidence rule就是說答了這些題目，就是一個complex的product，我們必須把這些東西變成一個證據，比如說這題我花了多少時間，或是在解題的時候有沒有一些ask for help，所以的information都是一個digital的form，我們必須把這些東西拿出來成為一個evidence rule，比如說這道題答完我有個key，也許是對的或是錯的，那拿出來這個證據之後，我們應該怎麼辦呢，比如說有五道題，這個學生答了三題對的兩題錯的，那怎麼辦呢，最簡單的方法是把他加起來，或是用其他的數學模型，假設人有一個真正的能力，把他放到一個測量的量表，把他轉換成一個分數例如0-600分，這就是之前提到的貝氏網路。

Propagation

Propagation，當我知道一個同學答一些題目有對的有錯的，那麼它把這些information，成立到proficiency model，對這個人的能力做估計，大概到怎麼樣的程度，如果是low、medium，and high，也許就會有這樣的決定，如果這個人是教師，三分以上通過，三分以下不通過，需要在考一次，那就無法得到教師的執照，那待會我將會做個小小的demo，就是使用貝氏網路。有一些方法，在此提供大家，大家可以去search，去收集一些文獻、書籍，了解這個公式定義是怎麼得來的、推導的，用選題的時候或者weight of evidence，有些題目給它多一點的位值，我希望這方面，譬如說出了一道題，這道題是答考文法，我想下道題測驗考其他方面的閱讀分析能力，就在那方面選些題目，同樣這些題目有哪些合適與哪些不合適。把很多題目放在一起，presentation就是一個怎麼樣的形式。Testlets就是說，譬如說我有一段閱讀文章，這段閱讀文章下面有五個Question，這五個Question就稱為一個Testlets，因為它是一組來的，這題目跟別的閱讀的段落沒有絕大的關係，所以有一個共同的factor在裡面，所以我們叫Context variable。那麼常用的一個模型就是Item Response Theory，意思就是每道題目有自己的參數，假如人有一個能力，這個能力我們看不見，我們要來估計，這邊使用Beta參數對應到n個item題目，每到題目又有自己的參數，就是1參數，就是只有一個Beta參數，3參數，區分度、難度、猜測的可能性，所以在這個這種情況下，X是代表每道題答完以後的evidence，現在我們來看左邊這張圖，就是一個簡單考試，想知道這個人看不見的能力，有四道題，每一道題是一個X，答對了第一個題，對前面的那道題估計有所改變，答對了再加一道題，而有所改變。

CAT(計算機視訊化測驗)

CAT，是一種方法，有一種情形，每個人拿到一樣的考卷，每次考試每個人拿紙本答題，每個人答的答案都一樣，這時候有的考生，發現有些題木跟本看不懂，有些題目又太簡單，很浪費時間，對考生沒用，對改題的也無效率，要怎麼提高效率呢？有一個這樣的考試，也必須借於計算機的技術，怎麼考呢，先拿一道題來考，在計算機上面，考完了之後，對看不見的能力有一個估計，一道題拿來答錯了，可能有點難，下一題出的簡單一點，如果這道題答對了，則下一題稍微出一個較難的題目，再進一步估計，能夠盡快的找到這個人能力的能力平衡點，CAT，根據這個人的能力，找出適合他的題目，這個同時也存在一個問題，就是”需求量”，隨時都可以考，但需求的題目數量很大，因為這個人，雖然兩個人坐在旁邊，但得到不一樣的考題，考試的安全是有所提高，無法抄襲，但用題用的特別快，隨時都需要用題，隨時都可以報名考試，如果是紙本的考試，一年出題一次，所有人一起考一份考卷。可是計算機上面考試，十個人一起考就須要產生十道不一樣題目，所以寫題的這個工作量就特別大，所以需要一個自動產生題的程式，產生各種不一樣的題目，五花八門的題目，所以希望大家一起研究，那麼計算機考試還是非常實用的。計算機考試可以提高大家的效用，譬如說本來要考50題才能得到一個好的估計，因為給的題目越多，evidence越多，就能夠比較好的估計這個人的能力，題越多，越接近這個人的標準，但計算機考試只需要一半或更少量的題目，便可以估計出這個人的能力，因為很快就可以達到那個人的標準，剩下的題目，不是很難答，就是很快的就答出來，可以省去答這些題目的時間。那接下來右邊這個圖，一個人這個看不見的能力，後面幾道題，每道題都自己的不同的參數係數，來估計每個不同的題目。那Bayesian分析怎麼樣來分析，就是說一個人大部份思維行為方式都是很相似，大家也是考同一份考卷，而不是說一個人考一個，雖然裡面有所差距，但裡面基本的是一樣的，假設學生的能力follow一個這樣的分布，這個分布必須General，能夠cover盡可能多的人，然後有一道題來觀察得到這樣的evidence，然後透過這些來update，來update對這個人能力的估計，透過evidence進一步增加我們這方面評估的能力並進一步分析，得到這些evidence做能力上做評價，這個過程就是使用Bayesian做這樣的分析。接下來我們想了解這個人Communication的能力，要怎樣去設計，則需要很多的variable，列出了這麼多則有哪些是重要的，需要做一個domain的analysis。一般要考communication，需要考讀、寫、聽、說，還有一些sociolinguistic、register、purpose這些也很重要，有些例子中拿factor數據來做統計方法分析，這些變量哪幾個是重要的，將使用在座標上，當第一個重要的拿來，可以cover 50%，我們想要的重要訊息，加上一個又cover 10%，再加一個cover 50%，到什麼時候才要停止呢，因為這可以無限的，才可能達到100%，可是當做一個測量，或買一樣東西的時候，百分之八九十便可，但我們盡可能朝百分之百，但到一定的程度則必須停止，因為各方面的因素，學生們也很累，也不可能一次答一千道題。

Communication

Communication skill based on有幾個重要的，當要寫作時，對Reading有個要求，先會Reading才會寫，先會聽才會說，所以它們的關係有個Observations，每個都提供communication 的skill，同時聽的人也跟Reading能力，說的人跟Writing能力也有關係，所以有很多的correlation Relationship存在，Reading又多了一個，induce dependencies，這些variables，我們都稱它Diagnostic variable。我們考學生時，提出一個題目，我們得到了什麼？有Audio or Video Clip，Length、Setting、Speech Rate、Vocabulary、Media，從這些裡面我們再去extract出哪些是我們需要的evidence，剩下的其它做一些輔助的evidence。所以從剛剛所談，對於一些模型，我們要去測量學生的能力、技能，透過一些evidence來做評價，要怎樣delivery出去，以下我們將再舉一個例子。假設我是administrator，提供考試的地方，我會select一些考試的題目，就是Activity Selection Process，學生來對這些題目做聽、說、讀、寫，就是Presentation Process，進行到下一個Process，將進行Evidence Identification Process，有很多東西我們將extract，剩下東西放到一邊，也都是有用的，還可以把這些information feedback，等到下次出題，我們要用什麼樣的template出題，每道題的答案做Accumulation Process，變成一個成績發佈出去，這裡面也evolved很多東西將在之後介紹。Computer Based Testing，就是說還是同樣一道題，只是在計算機上考試，不是adaptive。

Bayesian Network

Bayesian Network，就是我用到其中的一個模型，來extract其中的evidence來做分析評估人後面的能力，有幾個steps，首先要有一個模型，所有的parameters，就是每個題目的parameters，每個人看不見的能力也許是一維的，也許是多維的，Bayesian Network假設它是一個vector，有好幾個，讀、寫、聽、說，這四個技能是我們想估計的，還會有其它的parameters，找出所有盡可能的參數，形成一個參數上的模型，然後在這個上面，我們必須有一個預先的估計，譬如說人的分布是怎樣，題目的參數大概也是怎樣的一個分布，然後有一個預先的估計假設，然後我們有一個實際數據的和預先的數據，我們得到了一個考試的數據likehood，然後把它們兩個弄在一起，並進而對人的參數的所有能力做一個估計，一般情況一個prier，一個參數，估計出來它的答案為likehood，結果是怎樣，結果是在中間的。在IRT裡面有四道題和一個theta，X1 to Xn，n就是四道題。這個之後我List幾個reference，其實這個Bayesian Nextorks有些公式計算是非常複雜的，雖然有些模型我們可以直接算出來，像剛剛的IRT，還有一些數學模型，模型越來越複雜，越能夠描述我們的需要是越好的，但到一定的程度卻很難去計算估計，運算的時候，在做Bayesian Networks計算，我們用一些Software在public domain裡面，我最近是使用Netica。ERGO Company曾跟我們有過合作，很多同學喜歡用MSBNs，因為它是free。我們用這些模型來做估計是好還是壞？因為這些模型有各種各樣的參數，盡管我們想做到都概括，然後你後面得到的數據再多，也可能造成無法達到預期，可能跟自己想像的不一樣，要小心去處理自己的參數。接下來我們看圖，大部份人答第一道題77%答對率，最後一道題22%，代表第一道題簡單，代表最後一道題難，假設我們了解一位同學程度還不錯，達到average，用一個Model形成的，有一個prier，我們預測，我們的專家來寫成一個box language，來run這些數據，形成一個模型在box裡面，這模型有許多參數，我們對其中的參數做extract分析採樣，所有的參數走一遍，稱iteration，走了一千次，上上下下，做random的work，前面的一千我們稱為burn in，在try to find out，去求出convert，如果沒coverage再去run個一萬次，或者更多，我這個模型有這麼多參數，20個參數。是不是這20個參數都covert，如果有一個沒covert了，其他都好了，但這是不能被接受的。常常是用5個starting point開始，一個distribution從中間開始，加上兩個標準差，再用10個參數加上mean與同樣10個參數減去mean，這又是一個set。這樣一來，5個starting point開始run最後會達成一點，這樣就是一個很好的convert。如果3到一起，2個分開，那麼這就還沒convert完。假如我們知道一個人大概是在mean的地方，他答對第一道題的機率就挺高的，而第2道題就不是太高。假如這個人能力是高於平均，他答對每個題的機率就都上移了一些。但平常時，我們是不知道一個人的能力，那麼要從那裡估計來呢？便要從答對的題來估計。一道可以提供最多的訊息，能夠區分，那這道題就是有用的考題，計算機考試CAT便是以這種考題。這裡有個考試，用ECD建立，同時他的model是用Bayesian Network，這個考試稱為ACED，提供一個反窺，一個診斷，而他的題目是根據你的情況來選題，選擇的辦法是用所提供的證據來選的，domain是middle school的數學，主要是geometric sequence，task是adopted selection，同時有些access ability提供給一些殘障、不方便的人，他有觸碰圖樣供使用。他的feature是base on evidence center design，sequence是geometric，裡面involve很多factor在裡面，整體看起來就約是如此。一開始的時候我們要identify那些是學生的profession variable，然後建立成這樣的一個概念，第一步是要先分析出來是要考什麼，有什麼重要的因素，然後有個probability structure要從裡面定一些參數，然後用一些題目去收集這些數據。Score是right and wrong，level是easy median and hard，選題是用供給的evidence，然後還有conditional的evidence。這些就是ACED的一部份。

現場Demo

等等要給各位一個demo叫ICT，叫做Information Communication Technology，由於科技的進步與學生的需要，我們用他來measure knowledge skill的能力。一個做為example的是稱做web search，你可以有很多的search途徑，所有的search都是recorded，就可以看出一個人的search是不是有效率的。後來托福也慢慢開始用網路做題的方式，而不是以往的紙筆做答。在這裡看一個比較，紙筆答案，在一開始的時候有reading、listening和writing的部份，便成了CDT，Computer Adapted Testing，一部份就是是非選舉，一部份就是listening。現在的IBT的form都是一樣的，但是加上了speaking，就是他會給你耳機，然後通過microphone把你的東西record下來，record後他會有一個product，然後從裡面extract feature，來評估他的分數。Reading section有3到5個passage，原本的考試有大概100到200個words，現在變成500到700個words，每個passage後面大約有12到14個問題，以前可能只有一個要點，現在變成有多個要點，reading是可以review的，打完假如想change my mind可以再回去看你的答案，兩個部份分別的計時。還有多重選擇題可能給你0到4分，而整個部份有個原始分數，而所有的原始分數都會經過convert成0到30，還有些地方是用紙筆答案的，他的成績就是從31到67這樣看。Listening有6個lecture，後面follow了4到6個questions，有一些是conversation，他也是經過convert成0到30分。Speaking有6個，其中有2個稍微簡單點，剩下的稍微難一些。這些的考試就比較更接近模擬現實生活，由於托福考試是給海外的學生一個英文語言能力的測驗，這樣到美國或西方的大學讀書就有一個參考，communication的skill大概到什麼樣的level，學校會根據這個來估計你是不是能在這個大學裡來讀書和研究，所以現在的考試的內容也比較接近學校的生活。所有的考試，經過很多很多的研究，有三個要素，公平、有效和可靠性，每個考試要經過許多的review，然後在做一些實驗來預測。Item Exploiter，每一道題都有一個index，都有個exploiter的rate，假如這個exploiter的rate假如high的話，這個題目就要注意了，就要把他retired掉，或著是很長時間以後有可能再出來，大部份題目都是under exploiter，有的根本沒有用到，這也都有control的。Equating是什麼呢？就是說我去年考的托福600分，今年又考了一個550分，這說明了能不能說明600分一定比今天550分好？這個分數可不可靠？這套理論就叫做Equating，就是有一個量表是絕對的，不管你那次考試，把他全部convert到一個量表上，這時的600分就是600分，convert出來差不多表示相差只有一點點。題目難了分數就變了，但整體都會做調整，全部都convert到一個量表上，所以照樣出來的分數是不管你在那個level考出來都是這個分數，這叫做等值。有一套考題叫X，一套考題叫Y，等值的時候就有一組共同組、共同體或還有共同題。假如考X的時候得了6分，而這6分在共同題裡有多少個percentile，這個population裡的percentile是64%，而在64%時，他的毛題分數是2.6，這個2.6就是一個連接的標準，在新的考題裡的percentile是54%，54% score在這個考試裡是5.5分，等於那邊的6分，把他convert，把新的考試和就的考試放上同一個量表，經過許多參數的調整的transformation，把transform後的score全部放在scale上，這就是等值。