Virtual Link Powered Authority Search in the Web
Seminar個人報告 資科四 89703029 蘇以暄
這一次的演講主題令我感到很新奇,一直以來,在web上使用搜尋引擎對我來說是一件極為
平常之事,對於像google這樣的搜尋引擎,我雖然好奇它為何常常能夠依據我的關鍵字準確
找到我想要的資料,但我卻沒有去探究過它的原理,直到這一次陳教授的演講,讓我對搜尋
引擎的機制才有更深入的了解。
首先在一開始講到了傳統的keyword-based search engines,它主要的缺點是很多相關的pages雖
然內容都是我們所要的,可是卻不一定含有我們所輸入的關鍵字,這是一個很大的問題,以
致於產生了後來的替代方法,不是找尋網頁中的關鍵字,而是找尋所指的link,它的邏輯是:
一個好的網頁會被許多的nodes指到,也因此HITS algorithm因應而生。
HITS algorithm的目的是在找出最好的authority pages,而所謂的authority pages是指被其他hyperlinks
所指的網頁,相對於此,hub pages便是指到authority pages的網頁,但是這個方法的缺點是,就某
種程度而言這只能反映出製作網頁者的喜好觀點,哪些是他所喜愛的鏈結,在來就是有些時候,
相關的網頁可能因為某些問題,例如彼此的競爭,而不會有互相連結的情況產生,因此virtual links
也就因此產生。
在這裡先定義了hot set,其意義是在某段時間被大量點選進入的pages。然後在hot set中放置virtual
links,在感覺上視為被一個hyperlink指到,接下來就是VIPAS了。
VIPAS除了找出hot set之外,對於每個virtual links亦給予其權重(weights),算出其值之後再加上
每個page本身的值,在決定出使用者可能想要的順序,而將搜尋的結果呈現出來。
在聽完這次的演講之後,我決定去找尋關於搜尋引擎的一些資料,目前的搜尋引擎主要有
Yahoo、google、及微軟,並且大致上可分為全文搜尋引擎、索引或指南型搜尋引擎、多重
搜尋引擎、自然語言搜尋引擎、資源或網站型搜尋引擎這五類。
全文搜尋引擎適合的層面是在於可以用簡短的關鍵字表示的字詞,因此對於我們所不熟悉
的東西要搜尋,就很困難,因為很多時候在我們不熟悉的情況之下,會連關鍵字都抓不準,
使用全文搜尋引擎將會變得十分費力,我覺得這對我來說可能就極為不便了,我常嘗試對
於某個東西不熟悉而想利用搜尋引擎去取得資訊,這樣一來,如果關鍵字沒用正確,我將
有可能要費很多時間才找得到我想要的資料。而且每次搜尋之後呈現的結果排序不盡然一
樣,這樣要是當我下次想再搜尋我看過的某個網站的時候,就得重新再找一次,或許這對
某些極明確的關鍵字有很好的效率,但對我而言,這類的搜尋引擎幫助並不甚大。
接下來是索引或指南型搜尋,主要就是將所有的網站分類,例如一開始是學校,往下細分
為大學、高中、國中…,然後分縣市,一直分類下去,但是這會牽涉到不同的民情分類也
會不一樣,在我們國家屬於某種分類,到其他國家可能就不是如此,因此我覺得像Yahoo
這樣依照不同國家有不同的Yahoo是個不錯的方法,但是我覺得,這還是要使用者先知道
它是屬於哪個類別才行。因此在後來,這樣的系統會配合上全文索檢搜尋方式。
至於多重搜尋引擎,本身不具搜尋功能,而是連到其他引擎去搜尋。
自然語言搜尋引擎主要是它允許使用者輸入自然的句子,也就是可以有問號之類的輸入,
並會有文法檢查,也會把相關的關鍵字一併找給使用者,例如輸入〝稅收〞它可能就會一
併把〝財經〞、〝經濟〞等關鍵字的搜尋結果列出來,我想這適合於廣泛的搜尋,如果是
想要專業而深入的搜尋很特定的東西,這會造成很大的困擾。
最後是資源或網站型搜尋引擎,這類的網站主要是做特定的搜尋,例如字典搜尋特定單
字,電話簿搜尋我們要的商家,這在網路上很多,但只有在特定某些時候在會被使用,
因此使用率不高。
在聽完演講之後我發現搜尋引擎具有很多的學問,想要準確猜測出使用者的想法,將
其最想要的結果放在最前面,的確是一件很不容易的事,我想,或許在這方面可以結
合一點人工智慧,或是再加上其他的方式,例如語音輸入的幫助,可以得知使用者的
〝聲音表情〞,而去猜測使用者真正想要的搜尋是什麼,諸如此類的方式。期待未來
搜尋引擎的發展能夠更臻完善,帶給使用者更多的便利。