演 講 詳 細 內 容 |
主題介紹:
今天的題目是,Networks在教育與考試的應用,實際上這是應用的一部份,那麼後面一些BEHIND THE THINGS的東西,我會給大家提到或是點到,我覺得在清華的時候,和今天剛剛在中午的時候聽到,老師同學們會有興趣的是去年九月份一個新推出的托福考試,和有一個新的product,就是測量information communication technology 也是一個新的考試,這是在美國一些新的學校開始使用,因為我們現在的網路科技很發達,所以通訊和information的search都大大地提高,所以在學校就開了一些課程。這些課程對學生的選課有一些要求,如果學生對EMAIL、Information Search 的efficiency不一樣的話,那在上課的時候有不同的問題,那老師就希望學生來上課的時候有一定的Level,技能或知識。如果沒有的話,那希望能提供一門預修的課,讓大家可以增長一下,然後學起來就可以比較得心應手,所以這個考試叫ICT,我將會做一個DEMO。
如何出題?
這個考試就是用來測量這方面的知識技能如何,然後呢,學校就根據這個來分配給學生課程。我們在設立考試的時候,常常是,當我們要給行程建立一個考試,首先我要考數學,如果裡面放一些文法的題這樣對不對?不對,所以我們知道要什麼,考數學,就要一些幾何、運算的東西在裡面,這就是技能和知識的要求,這就是我們想要考的,那我們怎麼知道學生俱不俱備這方面的知識技能呢,我們就要出一些相應的題目,這些題目給大家舉行考試,讓大家來回答這些問題,有些人就會考好,有些人考的不好,那我們就會從考題裡面得到evidence,證據。那麼這些證據怎麼得來呢? 透過考試,那我們怎麼辦呢,就把這些證據分析,我們有一套考試理論,把他這個要點提出來,來證明我們是不是能夠support我們這個前面設計考試的這些要求,所以就是說,有考試的要求,我們來設計一些題目,來統計,評價和決定學生俱不俱備這些技能,所以在這個過程中,參與的有考試設計的人,如果說數學的,那就有這方面的專家,怎樣的題,用什麼樣的問題,能夠去考這方面的知識和技能,這就叫出題部門Test Development。這裡面包括Development Item,就是每一個題。那同時,有了這些證據以後,怎麼樣能夠跟要求連繫在一起,在這個中間有一些統計理論,有一些數學模型就叫做Proficiency Model,這些模型,有些其況下,有些模型比較實用,另外一些情況下,有些是另外一些模型比較適合。這個過程有些就叫做Item Response Theory Model。是一個家庭Family,有一參數兩參數三參數,還有Partial Credit,就是部份給分,還有其中一個Model,就是貝絲網路。所以也就是,我們考試的目的是什麼。考試要有目的,還有,我們出題是要考三年級的小朋友呢,還是要考一個大學生,那麼這個目的不一樣,那題目的難度也會不一樣,這就是出題的requirement。那麼成績報告單,應該報告成什麼樣的成績呢,是全部的成績呢,每部份的成績呢,還是說,我在數學運算上的成績不錯,但在邏輯推理上差了點,這就叫做診斷的回餽。有人在2003年提出一個理論,就是根據我們以前那麼多年的考試經驗,就是所有的考試有三點很重要,在這三方面都有很多很多的研究,首先,Fairness,叫做公平,對每個考生要公平,這個公平呢比如說,一道題運算,但是全部都在講football,這種題目男生女生有些不公平,因為football男生比較有興趣,女生比較沒興趣,這種不公平的題目就不能放到裡面去。還有比較如對城市、鄉村的也不行,比如說什麼是摩天大樓,鄉村的人可能就不太知道。所以所有的題目用來在正式考試的時候,都是要先做預測,有一個題目,拿來以後通過正常的考試途徑,首先一開始測試的時候,我們會拿到一個小組的人做試考,比如說有些題目太難,全部人都寫不出來,或是有些題目太簡單,考了沒什麼意思,在做預測之前,首先要做一些review看有沒有這些差距太大,例如男女或黑白人。通過的話就消掉一部份,再做小組試驗,萬一都答錯或都答對,就又消掉一部份,下面這些題目,覺得可能還不錯,但是不確定,這些題目就要送到真正的考試裡面,但是你不知道是那道題,有一些有的考試裡面有用有的沒有,根據考試的人數和地區來決定,這些題目放進去了,但不算分,因為是我們預測的題目,在考卷收回來的時候,我們就會得到信息,一看題目在測試的時候是很完美的,但是在真正考試的題目卻不然,我們就會送回去讓出題的人再修改,或直接不要,故一個題目會經過一個那麼長的過程,然後才會真正用在考試裡。
如何設計?
如果要在設計的時候開始,如果沒有考慮這個題目的有效性,就是這個題目有沒有效,可能會在考完的時候才發現,浪費了太多人力物力,最後還沒有什麼用。所以這個evidence design 我馬上就會講到,就是一個從evidence開始,就是說,我這個題目考這個學生的證據是不是會有效,就從開始設立的時候就把這個考慮進去。所以主要就是說能夠盡可能的去capture整個考試的structure、relationship,從題目和要求包括我們的population(也就是考生)。然後呢,把這個工作,就像我們有資訊的、有教育的,原來資訊的人我們的程序啊什麼的都寫的很好,可是呢,跟教育的目標差了點,教育的人我這些都很懂,可是在運算的時候差了點。那出題的和真正用來統計分析的,和最後用這個成績來做參考來決定你上大學不上大學,得不得教師執照,這些人都組到一起,就是一個teamwork。然而呢,很多時候過去的考試,考完以後,我們有從這個考試裡面學到什麼經驗,例如出題、設計、互相之間的交流、或是過去有一道題目,有點問題,可是以後又跟這道題有點關係,忘記了這道題當時是出了什麼問題了。那麼ETC就把這些東西做一個teamwork,所以呢,這個ETC這個過程就是有一些互動,我們能觀察到的就是學生所能說的和做的,然後我們想知道他有什麼樣的knowledge、skill和ability,我們需要從這個統計出來,然後呢去決定他是不是有這樣的知識和能力,那麼怎麼樣能提供一個環境,同時能夠每次都去找一個人來寫題,這樣很浪費人力物力,我們現在有一個方向:就是自動出題。就是說有一個template,然後呢就是用計算機怎麼樣去知道教育專家的要求,然後去形成一個template,然後用來自動產生一個題目,那麼這個過程形成了一個plateform,把前面的domain做一個分析,比如說要考什麼,什麼是重要的都分析進去,或是有什麼樣的數學模式都放進裡面,形成了一個conceptual的一個framework。然後我們會讓它自動產生一個概率,什麼題在什麼情況之下有一個weight。所以呢,主要來講evidence center design就是說,我們要清楚為什麼我們要測量,測量的是什麼東西,我們的目的是什麼,然後呢我們的成績單報告單,比如說我們考完了數學,我們希望知道的是分部報成績呢還是全部的成績呢,是怎樣一個score report 成績單也會決定我們怎樣設計一個考試。這是一個diagram,叫做CAF。
Proficiency
首先第一點,我們要測量什麼東西?proficiency,知識技能或能力,然後呢,我們要怎樣來測量呢?就要通過一些證據,這證據從那裡來?就從題目或是project,還有如果是藝術的話,就是有一些drawing或是一些mutli-media,這些都是考題,都是我們能夠得到證據的地方,再來第三點,我們應該在那裡去測試,就是環境啦,再來是how much?多少information我們需要,是兩道題還是二十題,然後呢我們把這些題目組合起來來成為一個sampling的model,再來是給同學紙和筆來答呢還是在網路上來答呢,還有的呢就是說presentation的form,也會考慮到。所以student的技能有一個這樣的clean的structure,比如說這個人的communication的skill,下面包括reading 、writing、listening和speaking。一般的情況下,我們每個的考試有個主要的目的,像是考英文或是考數學,或者考大學有部份英文一部份中文。TEST MODEL,就是我們考題裡面,也許是說mutliple choice,或是對或錯,還有就是運算題,算下來可能得一分,或滿分。那麼在這個包括evidence rule就是說答了這些題目,就是一個complex的product,我們必須把這些東西變成一個證據,比如說這題我花了多少時間,或是在解題的時候有沒有一些ask for help,所以的information都是一個digital的form,我們必須把這些東西拿出來成為一個evidence rule,比如說這道題答完我有個key,也許是對的或是錯的,那拿出來這個證據之後,我們應該怎麼辦呢,比如說有五道題,這個學生答了三題對的兩題錯的,那怎麼辦呢,最簡單的方法是把他加起來,或是用其他的數學模型,假設人有一個真正的能力,把他放到一個測量的量表,把他轉換成一個分數例如0-600分,這就是之前提到的貝氏網路。
Propagation
Propagation,當我知道一個同學答一些題目有對的有錯的,那麼它把這些information,成立到proficiency model,對這個人的能力做估計,大概到怎麼樣的程度,如果是low、medium,and high,也許就會有這樣的決定,如果這個人是教師,三分以上通過,三分以下不通過,需要在考一次,那就無法得到教師的執照,那待會我將會做個小小的demo,就是使用貝氏網路。有一些方法,在此提供大家,大家可以去search,去收集一些文獻、書籍,了解這個公式定義是怎麼得來的、推導的,用選題的時候或者weight of evidence,有些題目給它多一點的位值,我希望這方面,譬如說出了一道題,這道題是答考文法,我想下道題測驗考其他方面的閱讀分析能力,就在那方面選些題目,同樣這些題目有哪些合適與哪些不合適。把很多題目放在一起,presentation就是一個怎麼樣的形式。Testlets就是說,譬如說我有一段閱讀文章,這段閱讀文章下面有五個Question,這五個Question就稱為一個Testlets,因為它是一組來的,這題目跟別的閱讀的段落沒有絕大的關係,所以有一個共同的factor在裡面,所以我們叫Context variable。那麼常用的一個模型就是Item Response Theory,意思就是每道題目有自己的參數,假如人有一個能力,這個能力我們看不見,我們要來估計,這邊使用Beta參數對應到n個item題目,每到題目又有自己的參數,就是1參數,就是只有一個Beta參數,3參數,區分度、難度、猜測的可能性,所以在這個這種情況下,X是代表每道題答完以後的evidence,現在我們來看左邊這張圖,就是一個簡單考試,想知道這個人看不見的能力,有四道題,每一道題是一個X,答對了第一個題,對前面的那道題估計有所改變,答對了再加一道題,而有所改變。
CAT(計算機視訊化測驗)
CAT,是一種方法,有一種情形,每個人拿到一樣的考卷,每次考試每個人拿紙本答題,每個人答的答案都一樣,這時候有的考生,發現有些題木跟本看不懂,有些題目又太簡單,很浪費時間,對考生沒用,對改題的也無效率,要怎麼提高效率呢?有一個這樣的考試,也必須借於計算機的技術,怎麼考呢,先拿一道題來考,在計算機上面,考完了之後,對看不見的能力有一個估計,一道題拿來答錯了,可能有點難,下一題出的簡單一點,如果這道題答對了,則下一題稍微出一個較難的題目,再進一步估計,能夠盡快的找到這個人能力的能力平衡點,CAT,根據這個人的能力,找出適合他的題目,這個同時也存在一個問題,就是”需求量”,隨時都可以考,但需求的題目數量很大,因為這個人,雖然兩個人坐在旁邊,但得到不一樣的考題,考試的安全是有所提高,無法抄襲,但用題用的特別快,隨時都需要用題,隨時都可以報名考試,如果是紙本的考試,一年出題一次,所有人一起考一份考卷。可是計算機上面考試,十個人一起考就須要產生十道不一樣題目,所以寫題的這個工作量就特別大,所以需要一個自動產生題的程式,產生各種不一樣的題目,五花八門的題目,所以希望大家一起研究,那麼計算機考試還是非常實用的。計算機考試可以提高大家的效用,譬如說本來要考50題才能得到一個好的估計,因為給的題目越多,evidence越多,就能夠比較好的估計這個人的能力,題越多,越接近這個人的標準,但計算機考試只需要一半或更少量的題目,便可以估計出這個人的能力,因為很快就可以達到那個人的標準,剩下的題目,不是很難答,就是很快的就答出來,可以省去答這些題目的時間。那接下來右邊這個圖,一個人這個看不見的能力,後面幾道題,每道題都自己的不同的參數係數,來估計每個不同的題目。那Bayesian分析怎麼樣來分析,就是說一個人大部份思維行為方式都是很相似,大家也是考同一份考卷,而不是說一個人考一個,雖然裡面有所差距,但裡面基本的是一樣的,假設學生的能力follow一個這樣的分布,這個分布必須General,能夠cover盡可能多的人,然後有一道題來觀察得到這樣的evidence,然後透過這些來update,來update對這個人能力的估計,透過evidence進一步增加我們這方面評估的能力並進一步分析,得到這些evidence做能力上做評價,這個過程就是使用Bayesian做這樣的分析。接下來我們想了解這個人Communication的能力,要怎樣去設計,則需要很多的variable,列出了這麼多則有哪些是重要的,需要做一個domain的analysis。一般要考communication,需要考讀、寫、聽、說,還有一些sociolinguistic、register、purpose這些也很重要,有些例子中拿factor數據來做統計方法分析,這些變量哪幾個是重要的,將使用在座標上,當第一個重要的拿來,可以cover 50%,我們想要的重要訊息,加上一個又cover 10%,再加一個cover 50%,到什麼時候才要停止呢,因為這可以無限的,才可能達到100%,可是當做一個測量,或買一樣東西的時候,百分之八九十便可,但我們盡可能朝百分之百,但到一定的程度則必須停止,因為各方面的因素,學生們也很累,也不可能一次答一千道題。
Communication
Communication skill based on有幾個重要的,當要寫作時,對Reading有個要求,先會Reading才會寫,先會聽才會說,所以它們的關係有個Observations,每個都提供communication 的skill,同時聽的人也跟Reading能力,說的人跟Writing能力也有關係,所以有很多的correlation Relationship存在,Reading又多了一個,induce dependencies,這些variables,我們都稱它Diagnostic variable。我們考學生時,提出一個題目,我們得到了什麼?有Audio or Video Clip,Length、Setting、Speech Rate、Vocabulary、Media,從這些裡面我們再去extract出哪些是我們需要的evidence,剩下的其它做一些輔助的evidence。所以從剛剛所談,對於一些模型,我們要去測量學生的能力、技能,透過一些evidence來做評價,要怎樣delivery出去,以下我們將再舉一個例子。假設我是administrator,提供考試的地方,我會select一些考試的題目,就是Activity Selection Process,學生來對這些題目做聽、說、讀、寫,就是Presentation Process,進行到下一個Process,將進行Evidence Identification Process,有很多東西我們將extract,剩下東西放到一邊,也都是有用的,還可以把這些information feedback,等到下次出題,我們要用什麼樣的template出題,每道題的答案做Accumulation Process,變成一個成績發佈出去,這裡面也evolved很多東西將在之後介紹。Computer Based Testing,就是說還是同樣一道題,只是在計算機上考試,不是adaptive。
Bayesian Network
Bayesian Network,就是我用到其中的一個模型,來extract其中的evidence來做分析評估人後面的能力,有幾個steps,首先要有一個模型,所有的parameters,就是每個題目的parameters,每個人看不見的能力也許是一維的,也許是多維的,Bayesian Network假設它是一個vector,有好幾個,讀、寫、聽、說,這四個技能是我們想估計的,還會有其它的parameters,找出所有盡可能的參數,形成一個參數上的模型,然後在這個上面,我們必須有一個預先的估計,譬如說人的分布是怎樣,題目的參數大概也是怎樣的一個分布,然後有一個預先的估計假設,然後我們有一個實際數據的和預先的數據,我們得到了一個考試的數據likehood,然後把它們兩個弄在一起,並進而對人的參數的所有能力做一個估計,一般情況一個prier,一個參數,估計出來它的答案為likehood,結果是怎樣,結果是在中間的。在IRT裡面有四道題和一個theta,X1 to Xn,n就是四道題。這個之後我List幾個reference,其實這個Bayesian Nextorks有些公式計算是非常複雜的,雖然有些模型我們可以直接算出來,像剛剛的IRT,還有一些數學模型,模型越來越複雜,越能夠描述我們的需要是越好的,但到一定的程度卻很難去計算估計,運算的時候,在做Bayesian Networks計算,我們用一些Software在public domain裡面,我最近是使用Netica。ERGO Company曾跟我們有過合作,很多同學喜歡用MSBNs,因為它是free。我們用這些模型來做估計是好還是壞?因為這些模型有各種各樣的參數,盡管我們想做到都概括,然後你後面得到的數據再多,也可能造成無法達到預期,可能跟自己想像的不一樣,要小心去處理自己的參數。接下來我們看圖,大部份人答第一道題77%答對率,最後一道題22%,代表第一道題簡單,代表最後一道題難,假設我們了解一位同學程度還不錯,達到average,用一個Model形成的,有一個prier,我們預測,我們的專家來寫成一個box language,來run這些數據,形成一個模型在box裡面,這模型有許多參數,我們對其中的參數做extract分析採樣,所有的參數走一遍,稱iteration,走了一千次,上上下下,做random的work,前面的一千我們稱為burn in,在try to find out,去求出convert,如果沒coverage再去run個一萬次,或者更多,我這個模型有這麼多參數,20個參數。是不是這20個參數都covert,如果有一個沒covert了,其他都好了,但這是不能被接受的。常常是用5個starting point開始,一個distribution從中間開始,加上兩個標準差,再用10個參數加上mean與同樣10個參數減去mean,這又是一個set。這樣一來,5個starting point開始run最後會達成一點,這樣就是一個很好的convert。如果3到一起,2個分開,那麼這就還沒convert完。假如我們知道一個人大概是在mean的地方,他答對第一道題的機率就挺高的,而第2道題就不是太高。假如這個人能力是高於平均,他答對每個題的機率就都上移了一些。但平常時,我們是不知道一個人的能力,那麼要從那裡估計來呢?便要從答對的題來估計。一道可以提供最多的訊息,能夠區分,那這道題就是有用的考題,計算機考試CAT便是以這種考題。這裡有個考試,用ECD建立,同時他的model是用Bayesian Network,這個考試稱為ACED,提供一個反窺,一個診斷,而他的題目是根據你的情況來選題,選擇的辦法是用所提供的證據來選的,domain是middle school的數學,主要是geometric sequence,task是adopted selection,同時有些access ability提供給一些殘障、不方便的人,他有觸碰圖樣供使用。他的feature是base on evidence center design,sequence是geometric,裡面involve很多factor在裡面,整體看起來就約是如此。一開始的時候我們要identify那些是學生的profession variable,然後建立成這樣的一個概念,第一步是要先分析出來是要考什麼,有什麼重要的因素,然後有個probability structure要從裡面定一些參數,然後用一些題目去收集這些數據。Score是right and wrong,level是easy median and hard,選題是用供給的evidence,然後還有conditional的evidence。這些就是ACED的一部份。
現場Demo
等等要給各位一個demo叫ICT,叫做Information Communication Technology,由於科技的進步與學生的需要,我們用他來measure knowledge skill的能力。一個做為example的是稱做web search,你可以有很多的search途徑,所有的search都是recorded,就可以看出一個人的search是不是有效率的。後來托福也慢慢開始用網路做題的方式,而不是以往的紙筆做答。在這裡看一個比較,紙筆答案,在一開始的時候有reading、listening和writing的部份,便成了CDT,Computer Adapted Testing,一部份就是是非選舉,一部份就是listening。現在的IBT的form都是一樣的,但是加上了speaking,就是他會給你耳機,然後通過microphone把你的東西record下來,record後他會有一個product,然後從裡面extract feature,來評估他的分數。Reading section有3到5個passage,原本的考試有大概100到200個words,現在變成500到700個words,每個passage後面大約有12到14個問題,以前可能只有一個要點,現在變成有多個要點,reading是可以review的,打完假如想change my mind可以再回去看你的答案,兩個部份分別的計時。還有多重選擇題可能給你0到4分,而整個部份有個原始分數,而所有的原始分數都會經過convert成0到30,還有些地方是用紙筆答案的,他的成績就是從31到67這樣看。Listening有6個lecture,後面follow了4到6個questions,有一些是conversation,他也是經過convert成0到30分。Speaking有6個,其中有2個稍微簡單點,剩下的稍微難一些。這些的考試就比較更接近模擬現實生活,由於托福考試是給海外的學生一個英文語言能力的測驗,這樣到美國或西方的大學讀書就有一個參考,communication的skill大概到什麼樣的level,學校會根據這個來估計你是不是能在這個大學裡來讀書和研究,所以現在的考試的內容也比較接近學校的生活。所有的考試,經過很多很多的研究,有三個要素,公平、有效和可靠性,每個考試要經過許多的review,然後在做一些實驗來預測。Item Exploiter,每一道題都有一個index,都有個exploiter的rate,假如這個exploiter的rate假如high的話,這個題目就要注意了,就要把他retired掉,或著是很長時間以後有可能再出來,大部份題目都是under exploiter,有的根本沒有用到,這也都有control的。Equating是什麼呢?就是說我去年考的托福600分,今年又考了一個550分,這說明了能不能說明600分一定比今天550分好?這個分數可不可靠?這套理論就叫做Equating,就是有一個量表是絕對的,不管你那次考試,把他全部convert到一個量表上,這時的600分就是600分,convert出來差不多表示相差只有一點點。題目難了分數就變了,但整體都會做調整,全部都convert到一個量表上,所以照樣出來的分數是不管你在那個level考出來都是這個分數,這叫做等值。有一套考題叫X,一套考題叫Y,等值的時候就有一組共同組、共同體或還有共同題。假如考X的時候得了6分,而這6分在共同題裡有多少個percentile,這個population裡的percentile是64%,而在64%時,他的毛題分數是2.6,這個2.6就是一個連接的標準,在新的考題裡的percentile是54%,54% score在這個考試裡是5.5分,等於那邊的6分,把他convert,把新的考試和就的考試放上同一個量表,經過許多參數的調整的transformation,把transform後的score全部放在scale上,這就是等值。
|