簡介
在我們進入主題之前,想要請問一下,這裡面有誰聽過或知道什麼叫content management?請舉手好嗎。還不是很多,這沒有關係。因為這個東西事實上來講也是一個很新的東西,說新也不新,大概在十幾年前,當documentum剛開始成立的時候,我們是pioneer,也就是先驅者。在這方面裡面,我們做了很多研究,很多的開發產品,他最主要的用途就是說,要去handle一些unstructured的data,跟那個database有點類似,但是database主要是handle一些structured的data;content management是handle一些unstructured的data。喔,等一下你就會看到就是說content management到底是有包含哪些部分哪些feature,因為他這個算是一個新的產業,也是一個很有用的產業,希望今天的talk可以帶給各位一些新的understanding on different area。我相信有些同學應該是有些database的 background,一些地方我大概不會再重複。
Google/Yahoo!/Baidu
相信你們大家都聽過google,即使你們沒有聽過content management,應該每個人都聽過google這樣的一個公司。你可以看到就是說google這樣的一個公司,他在去年8月份的時候剛開始上市,從100塊左右,然後可以一路飆升到200塊,後來又到300塊,甚至於我在做這張slide的時候,已經到400塊,最近好像已經到430塊,如果你們有在follow這個東西的話,你們,就會發現說,這樣的一個公司到底有什麼樣的魅力,可以上市以後就這樣沿路飆漲飆漲飆漲,但是也很多人希望說可以有機會進入,大概你做個一年半載之後就可以退休了。大概兩、三世你的後代不愁吃,不愁喝。Google他做的東西其實只是content management裡一個很小的部分,但是是一個很重要的部分。我們會介紹更詳細,,讓你有個更深刻的體驗。另外一個example是Yahoo!,這方面的一個元老,他上市的時候也是沿路飆升,他股票分股也分了好幾次,在他最旺的時候,飆升到快150塊,美國有一陣子經濟不景氣,大概2000年到2003年左右,他掉得蠻慘的,但是比起其他公司還算不錯,只掉到二、三十塊。當經濟開始回升的時候,他馬上就回升到50塊左右。所以你可以發現說,這樣的一個公司,有相當的一個魅力在,能夠起起伏伏在經濟沈淪的時候,順利地往上回升。不是向下沈淪,而是往上回升,這種魅力在哪裡呢?然後你再看看另外一家公司,叫做百度。他在今年的8月中上市,上市的時候就是九十幾塊,掉到二十幾塊,這樣大的gap,在股市裡面是個蠻shocking的record,後來又衝到120左右,然後起起落落,起起落落。這個可能也是告訴你一件事情就是說,像這樣一個search company,因為他是一個大陸的公司,所以大家對他的前景不看好。大陸隊軟體上的保護各方面的環境跟美國不太一樣,大家不確定他是不是能獲利,但是大家已經知道他的重要性在哪裡。
它們告訴我們什麼
前面介紹了一些股票,這樣的一些股市反應,告訴我們說很多的strong desire/demand to search on the web。你在internet上面可以找到你想要的資訊,internet事實上已經affect our daily life。而且很多公司也把它們的東西放在網站上,甚至於一般的customer support,一大堆公司的typical operation,他們事實上也都是在網站上進行。這個東西告訴我們說,we are in an information explosion age。Everywhere, anytime每個computer都可以compute at server,只要你access一個domain,你就可以做一個server,你的website別人就可以access它,可能google也會幫你做index,人家可以找到你的information。這邊有些number蠻interesting,number of emails (spam excluded) sent every day in North America tripled to 11.9 billion,11.9 billion相當於119億,since 1999。從1999年到2004年已經成長了三倍。Google is doing 2 billion searches a month,google怎麼去handle這麼多的東西,他必須有一個scalable的mechanism。Yahoo! generates 10 terabyte data a day,等於是美國國會圖書館的data amount。eBay hosts 1.4 billion auctions and 16 million active auctions at any moment of time,現在資料的量,比起以前是前所未有的,而且這個東西會越來越嚴重,越來越厲害。因為現在還有很多未開發的國家,還有一些開發中的國家,他們現在也是用各種方法在用電腦,來互相share information,來create information。我們可以發現,internet create這麼多的information,它是一個刀的兩刃,它也create很好的interface,尤其是google和yahoo!可以方便地搜尋。Sun Micro昇陽公司的總經理Scott McNearly就說google has become one of the most important tools IT ever deployed on the corporate system。現在新的發展的一套software,根本就不需要deploy它,有需要有一個網站。Software develop cycle已經被change。
Information exists in many different forms and formats。以前tradition的一些如Microsoft的powerpoint,Microsoft word,那些format已經不是一個很hot的format,現在有不同的format,像email、IM、video、audio、database、Blog、web pages,這些東西都是存在的,anywhere at anytime,well-form defined。Unstructured data is becoming more and more important than structured data,70 ~ 90% of corporation data are unstructured。資料庫在二、三十年前的時候,造成一股風潮,製造一些公司來handle這些structured data;現在unstructured data大家realized他的important,以前因為客觀的條件,沒辦法efficiently organize它。現在content management讓這個東西more popular。但是unstructured data有更多的challenge to manage,第一個,因為他不是structured data,所以他tend to be bit,一個byte跟一個byte的data,要去organize他。Enterprise content management就是用來handle unstructured data,不只是做search,search只是給你a list of content based on criterion,但是事實上content在operate的時候,造成一些重要的business know-how,有時候甚至於影響到你這個公司能不能繼續營運。像美國的話,像那些在maintain air-line的公司,在做維修的時候,要check哪些東西被maintain了,哪些東西沒被maintain。這些document沒有well-organized或者well-recorded的話,聯邦政府可以要求他停止營運。這些content都是很重要的content,影響到你公司可不可以繼續營運。有時候你一些東西是用一些know-how、intelligence、knowledge,它也會讓你avoid一些trouble,operate more efficiently,become more productive and profitable。因為information可以reuse。
The Puzzle of ECM
再來這裡是講說,到底enterprise content management包含哪些部分。Search當然是number 1,most important one,但不是only one。還有knowledge management、document management、lifecycle management、web content management、collaboration、portals、digital asset management、email management,還有更多更多。這個東西到底cover多大,也是隨著時間而有不同的定義。
Search
我們前面講過search的重要性,這邊再跟你重複一下。很多人花時間在hunting job。早期的軟體,大概1970年代後期,1980早期,就可以搜尋millions of documents,主要for education跟medical research跟large legal case,主要在mainframe上面,而不是像現在在一些PC或low-end的機子上面。Search tool can be confusing if it returns tons of pages for you to choose,一般來講,content search就像一般的full text search一樣,有factor可以讓你不要miss掉relevant的東西,或者找到的東西要satisfy criterion。Basic search feature:full text search、boolean search,就是把search的criterion and、or在一起;wildcarding在英文上比較make sense,就是把有幾個字起頭的把它找出來;proximity就是說你兩個字之間可能要間隔幾個距離才會把它找出來;parametric search就是content本身有mata-data在describe他,search的時候還要search到meta-data;thesauri可以建立一些辭典,這些辭典可能只是對你一些domain有幫助;還有同意異字、relevant order這些都是很basic的。
Advanced Search
Google也不過就是做些basic的,再加上一些advanced的feature。比如說adjustable ranking就是說把一些criterion加重一點,ranking的score會比較高一點;hyperlink ranking,這個就是google他最著名的feature,就是說,你一個website通常有好多的link,link到其他的document,一般的search engine早期沒有想到說在做ranking的時候,這些link的content也要抓進來做ranking,但是google就想到這個,這其實也很容易想到,但是不曉得為什麼大家就是沒有想到,他就想到了做這個東西,讓他search更容易找到你要的東西;auto summary就是讓result能夠被summarized,給你一些摘要,自動地產生一些摘要,讓大家可以知道說這個content到底是在講些什麼東西;user behavior learning這也是一個很好的feature,就是會keep track你這個user找過什麼東西,想要做些什麼事情,他會recommend你做些事情,就像你如果到amazon.com的話,你以前買過什麼書,他都會把它記錄下來,他會跟你講說有些人買了這些書,通常也會買些什麼書,他會有這些extra的information,這是一個很好的information可以sell他的product;natural language query:讓你typing你的natural language,這在美國已經有些software做到這個地步,但是在台灣的話,不曉得有沒有這樣的tool;dynamic clustering of results,result會自動幫你分門別類;concept mining and extraction,不只是search keyword,而是search concept,你type一些concept,他就知道你到底要search什麼東西,然後把一些relevant的content找回來;federated search就是content可以存在不同的repository,而不是存在單一的repository;auto classification based on taxonomies,這跟剛才講的dynamic clustering有點類似;taxonomy navigation就是根據分門別類,到不同的類就可以extract不同的content。在這個圖裡面,google他頂多做了1,2樣而已,他就可以這麼popular,如果說有哪個人有辦法繼續發揮的話,找1,2個項目好好做一做,搞不好就可以當另一個google。所以說,這方面還算是一個蠻有前途的area,蠻值得你去好好地研究。
Knowledge Management
Knowledge management也是一個重要的component,如果沒有好好manage你的data,在industry裡面會lost多少錢,主要的就是告訴你說,knowledge是很重要的factor在company management上面。Knowledge是applying information to resolve a problem,你在web上面一大堆的information,你如果真的說沒有把它拿來用,put it into an action,它還是information,它不是真的你的knowledge。要有辦法把它organize起來、filter out,有些東西是relevant跟inrelevant,要把它分開來,才能當成knowledge用。Layer of intelligence gathering info about info,它事實上就是有些meta-data,information to describe another information。Knowledge是context aware。Context就是domain的意思,中文是「前後文」,跟前後的意思有關係,比如說,如果你住在美國,你聽到F4的話可能搞不太清楚那是什麼東西,他可能會以為你說錯了,可能是F1,或者是轟炸機;可是你隨便問一個路上的人,就知道F4是什麼意思;反而你問他F1的話,他可能會說是不是F4裡面的一個成員就叫F1。這就是context aware,同樣的字眼,同樣的keyword有不同的meaning,在這邊有這邊的meaning,在那邊有不同的meaning。所以knowledge是very tricky,它是一個domain-specific跟context-specific的knowledge。你可以有些hierarchical、authoritative,就是著作人的一些資訊可以include在裡面improve info access for decision making and innovation,用一些attribute去describe knowledge讓你更容易去找到這些東西。Knowledge management is about the application of knowledge。一個好的knowledge management system是必須要reduce overhead,不然你就不願意contribute你的knowledge到這個system,才能獲得你要的knowledge。
因為knowledge是context aware,所以必須要有個community of practice for people to share their knowledge。因為不同的人對這個information的understanding各方面都會不太一樣。這個cycle大概一般人也都知道,這裡只是強調the cycle of knowledge management你要怎麼去找到information、怎樣去create它、organize它、share它,然後再reuse。
Document Management
Document management,通常早期的content management指的是document management。Content management它的definition一直在change,一直在增加,一直在增加。Document management最早在1980的時候,幫助那些airline、製藥的、financial industries handle paper-based processes that drive their business。這些公司很多paper work。像airline要design一個新的airplane的話,他們的document必須要好幾個卡車來載,以前沒有電子化的時候,把這些東西印出來、prepare、package大概要花個3個月左右,才有辦法把這些東西deliver給government。用了document management的product之後,可以reduce到1,2個禮拜。Documentum這家公司第一個order就是波音航空公司下給我們的訂單,我們到現在還有那張check,放在博物館裡面,那是一張一百萬美元的check。一般這種公司他們都很有錢,他不在乎花了多少錢,來買你的software,只要你解決他的問題。那他們要解決的是什麼問題呢,就是能夠讓他們organize data、prepare他們的data,整個東西都automatic。因為government有很多的regulation規範,有很多paper work,甚至於很多東西他們根本沒辦法記得,要有一套好的system automatically follow這些regulation。Document management他重視的就是說,document capturing/imaging就是把paper的documents他可以recognize,把它變成digital;dissemination就是分散、傳播出去;annotation就是加些note在上面。Version control就是document改了的話,要有history,create version tree,到時候assemble出來的時候,可以指定說這個chapter要從version 1出來,那個chapter要從version 2出來。這樣的functionality對他們來講是很重要的,通常建立document就是建立document的hierarchy,而不是單一的,就像programming一樣,通常你不會寫一個很長很長的program去做一個single job,你會分main program,sub program。同樣的,context就是把它organize成一個hierarchy。Document renditions就是document有不同的展現形式,比如說有中文版、英文版。所謂的cold就是Computer Output to Laser Disk,主要是作archiving,有些東西不需要在real-time,就放到archiving。Security and permissions control,make sure system是secure。Audit trails就是把大家做過什麼事情都把它記錄起來,誰犯了什麼錯都可以抓得出來。Library services就是user management等等的functionality。
Lifecycle Management
Lifecycle management就是information carry different meaning to content over time,像document你剛create的時候在一個draft的stage,你就是唯一的owner。寫好之後,要給別人review,交給你的advisor,ownership就放在不同的地方,有不同的人可以access,這個document就有不同的meaning。Lifecycle management讓你的document能夠go through這個cycle,有creation、processing、retention、archiving、disposition。disposition就是把它delete掉,就是說你這個document真的不需要了。所謂的active processing就是redaction,在編輯上,同一個document,這一段是可以讓人家改的;這一段可以讓某個人看,而不能讓另一個人看,有這樣的control。還有review、markup、electronic and digital signing。Signing是個很重要的process,因為有的content有時候會有人跑進去改,在歷史上也出現一些類似的事情,像雍正當初是怎樣繼承王位,很多人都有傳聞。康熙有個詔書寫「傳十四子」,他就改成「傳於四子」,他改了這個document之後,一字之差,帝位就傳給了不同的人,因為他把這個content改了,但是以前也沒有signing這個concept。Signing這個concept就是把整個content藉由password或PKI,產生一個signature,stay along with the content。到時候如果你有個東西被改了,他再重新generate一個signature,跟舊的不一樣,就會知道這個content被改了。Classification and taxonomies是說,怎麼樣歸類document。Compound document assembly,information在不同的背景裡面有不同的動作,到了final stage的時候,可能就要自動地讓它generate一個compound document,把所有component都包括起來,最後publish到一個website或paper-based的document。這些東西都是lifecycle在處裡的。
這邊再講一些更detail的lifecycle management,像retention的時候,就是說你的content已經到了不被改的stage,就是放在retention的stage上面。基本上,很多人都會migrating inactive contents to low cost system,比如說raid這樣的system是很貴的,但是很快,你可能就不需要,放在一般的CD,稍微慢了一點,還是可以用。Archiving的話,有的是放在indexed and accessible mode,有的放在tape裡面,把它restore下來,不需要 real-time去access,當我需要用他的時候,再把它restore回去這樣就可以了。Record management就是你要怎麼樣處理這些document,當它已經變成一個record,不再改他了,美國它的規律很多很多,法令多如牛毛。每個business對於content都很careful,就是說他必須要follow每個rule,如果沒有follow rule就沒辦法run下去。甚至於規定說email也必須要放在record management,我們EMC最近一個很大的project就是要怎樣把你的email放在archiving裡面,這是一個很大的challenge,因為它的requirement通常就是一個小時你要把one million的email archive到你的system裡面。必須從頭design你的system,把所有的overhead都eliminate掉,讓它真的有辦法one million的email還有attachment都抓到system裡面,必須要重新design,才有辦法達成目標。還有一些retention policies,有些document可能要存10年、存5年based on它的application。Create “holds” on content,就是說這個content不是在 retention,但是我想把這個content hold起來,很著名的一個例子就是美國一個很大的公司,它做假帳,聯邦政府要去查它的帳,就叫他要put all documents on hold,都不能去改他,放在那邊讓我好好地去檢查完之後,覺得你沒有問題,你才能繼續你的function。Audit trail這些東西都是很重要的feature。
Web Content Management
Web content management 更是重要,internet 已經是很重要的platform for business,很多火車票 機票 都是在internet上,股市更是如此,下訂單時,多寫一個零或少寫一個零隨時都可能造成很大的lost使公司損失上億也都是時所聞,這些都是跟web content management 有息息相關的關係,所以在這要更強調的一點information必須是up to minute,所以說因為它的complexity 所以你的automation 就必須很重要,而且web content 有很多不同形式的form,可能是static 放上去就放上去,也可能是dynamic 臨時去database或到哪裡去抓一個東西,create一個information,他可能是structured data也可能是unstructured data,現在也可能是直接到web content上editing,不用跑道microsoft word上做一坐在把它放上去,像google都已經announce他們已經準備要作一些on-line editing的tool,microsoft聽到這消息後也趕快announce說他們也快要有這個solution,也就是說現在已經有一個revolution,現在的software development 已經不是像以前一樣,把所有的東西都develop好了以後給人家一個CD,然後他去install,這些漸漸都不在了,甚至於現在很多software要到website去install的,也漸漸會不見,以後都會由script language等等auto-download language所取代,也有可能會建立一些template 或是style sheets,separate content from layout ,不同公司有不同的layout,也希望author 可以 focus 在content excel not the style,現在很多都是跨國企業,很多東西都是大家同時在改,有人改那個部份,然後湊起來成為一整套的system,這樣子的東西,你就必須要讓許多人可以同時的工作卻不會override with each other ,這就是web content management 很重要的一個要項,還有Internationalization support,由於是跨國性的公司,所以有不同的語言support的需求。
Collaboration
collaboration基本上就是Link processes and people to create a combined work environment ,然後你可以share ideas 跟 knowledge ,基本上用的tool都是比較primitive,像是E-mail/IM、Application sharing(你可以開個application 大家一起run there)、Web conferencing (meeting, whiteboard, poll, chat)、Intranets(基本上就是website公司內部的人可以連到裡面)/extranets(公司外部的人不一定可以access 到所有的東西但是它可以work on such area)、還有一些Groupware讓你有很好的platform 去work、Repositories是比較簡單的一個做法,大家把檔案處理完了以後,就save到一個central space,就是說你不用再contact around with e-mail,send 給人家一個e-mail的話,常常就會有這個東西不up today ,例如我今天provide 一個東西給連老師,可是後來我又改了,所以說造成說妳們有的版本跟我的版本不一樣,如果說今天我們有一個central Repository,我只要check in 你們再check out ,就可以避免掉這樣的麻煩,而且在in the future的話,這個tool 就更是seamlessly connect content, people and processes between back/front office,你自然就不曉得你時常在用哪個tool,一進去就以為你在哪個tool裡面,事實上妳已經switch好多tool你都不知道。
Portals
Portals是一個跟web有關係的一個東西,他基本上是一個single point access to corporate information,yahoo就是一個很重要的example,他provide 一個很好的portal,他allow application,可以去run一些program,然後你也必須要Support customizable search, navigation and access to contents,所以說你portal進去以後,你可以run很多back office 的server,然後create 一些information,最後present 在你的web site上面,這個asp的application provider,這個事實上在2000年的時候,web-based盛行的時候,就已經有這樣的model,就是說基本上它把software rent 給你,你不用再買一套software ,它把software自己maintain,你沒用到他不charge給你,你有用到他才charge給你,這就像你去租片,你有用到的片子你才付錢,你不用付很多的錢結果只用一部份,所以說這個東西有很大的potential,因為一般人對於software的maintenance的backup都不是那麼在行。
Digital Asset Management
Digital Asset Management事實上就是handle rich media,rich media就是audio, video 的information,你有辦法讓他很容易的access,但他有一個很大的challenge就是說,這些data通常都是很大很大筆的data,你怎嚜樣把這些data moving from one side to our side,這就是一個很大的一個challenge,事實上妳要儲存他,去orgnize他也都是很大的一個challenge,還有就是digital rights and licensing permissions這些information都也是一些challenge,Meta-data is extensively used for managing the content,就是說,我們通常generate一些Meta-data去descript一些rich media,所以說你到時候做一些search 就比較方便了,Online education is a good example for using digital access management ,他們基本上就是一些video 讓你去看,讓你可以on-line 去study。
Email Management
Email Management是另外一個重要的課題,e-mail因為An employee receives around 70 emails a day in average,那還要算你必須去reply他、去access他、去understand他,所以說這整個東西都造成了一個challenge,事實上Messaging system is the largest content repository,因為大家每天都在收mail都在寄mail,所以說這個amount of data 很大的,e-mail management就必須要有辦法存到terabyte的data,現在已經有人在講petabyte,megabyte、gigabyte、terabyte、petabyte,petabyte是terabyte的一千倍,那你怎嚜樣去support這樣多的data呢? 而且不止這麼多的data,你還必須要Support audit trail 還有 Integrated with Records Management 還有Provide legal compliance,這都是很大的一個challenge。
Business Process Management
Business Process Management 就是提供一個很好的platform讓你去manage processes,這些processes就會deliver content between people,這邊講了一些workflow還有web-based的open standards 就是說現在industry有做一些什麼事情讓你能夠develop 一些workflow ,這些work flow事實上妳可以create workflow 讓別人去run,這樣就可以讓你的application很容易的整合在一起。
How They Work Together
在這個graphic chart裡面,我們有structure 跟 unstructured 的data,有peopleo to people communication 的tool 還有people to information,people to people 就是一些projects、 groupware、web conferencing、instant message、e-mail,people to information就是一些document management、archive、web content management 等等。然後我們也有提過Collaboration and Content,主要就是跟你講說左邊那一塊,可以被合成一個collaboration,最主要就是collaboration between people,基本上有些information可以share between people,而這些東西到底怎樣share between people 基本上有些processes,因此整個enterprise content management 可以很容易的解釋,以第24張投影片這張圖來解釋,事實上只有三個component,這三個component都是蠻大的component,collaboration sharing with people to people、content 對應到 people to information,就是這些人要retrieve這些content,他經過某些processes,可以access或reuse這些content,這些東西如果把她畫成一個hierarchy的話。
ECM Servies Architecture
ECM Services Architecture事實上就是這樣子(投影片第25張),user可能是不同的client tool,可能是個 pc、mobile phone、PDA等等,他connect 到一個solution,這可能是一個application provide,solution people,或sales等等不同的department,這個solution必須是 service-oriented Architecture,他可能是embedded 或dedicated 或者是web的 application,service-oriented就是基本上都有define一個service的sender,不像傳統上都是一整套的,一個component可能就是一個service,只是retrace一個component就可以provide一個新的service,這是我們剛剛講過的,這是server的fundation,這邊是Repositories,就是說儲存這些可能是不同的information,ECM本身就是一個repository,或者ERP,像oracle這些公司就是在做ERP,還有e-mail 、Storage Device、web content都是不同的Repositories的 device,接下來這是一個example,說明怎樣在美國借錢,你可以看到這個example還蠻複雜的,這中間經歷了很多processes,那你要怎麼樣把他組織起來,讓以後還可以reuse整個processes。
The Chanllenge
所以我們剛剛講的那些東西本身就是一個很大的challenge,事實上這個industry裡面還有更多的challenge,甚至 in general不是只是content management 一般的software或 hardware都會被challenge,因為他們的requirement就是說我必須有Close to constant respond time regardless of info amount,你今天有一百萬筆的資料跟你有一兆筆的資料,他不管你有多少她都expect他們有constant respond time,for example,就是說,我們有一些requirement就是說一天的話他要求我們的system能夠把兩千五百萬的檔案儲存到我們的system內,如果with content analysis 0.25M files per day,而without content analysis 2.5M files per day,所以說這些東西都是相當大的information,然後System requires being available 99.999% of the time,如果說算成year的話,我們必須要小於六分鐘的down time,如果超過的話你的system就不是可接受的system,你也要有辦法Automatic crash/disaster recovery,有些Real-time info even for decision support system,decision support system現在就是用data well-house ,就是你有不同的database 被real-time production data重新copy過來,重新 organize 然後 provide,這東西不是一個真正real-timed可能有半天或一天的delay,現在的requirement甚至要求你有一個 real-time的 support,即使不是real-time也要close real-time,也要很容易作customization、administration、a unified client interface以及security也是很重要的。
Response from Software Vendors
Data Partition
Software Vendors有不同的solution,像Database和Content Management companies,它就有出來一個Data Partition這樣的一個東西。傳統上一個raw就是存在一個固定的table space裡面,這樣你可以用base on range或是base on hash value方式節省一些時間,比如說某一個column的值在這個Partition,另外一個直存再另一個Partition,這兩個Partition可能在不同的table space上面,這個好處是,你在做search的時候check這個值,知道這個值在哪個Partition,然後依照這個值在table space中去看,不用整個從頭scan到底,這樣就可以省了很多的時間。
Real Application Clusters
一般來說底下有一個Database,上面還有一些server,你可以more than one server running again the same database,這些server事實上就是有low balances的一些 feature,一個client進來可能connect到這個server,也可能connect到其他server,如果這個cluster跟你的partition可以combine在一起,某一個就專門處理某個Data Partition,這樣你就有辦法能夠很efficiently的去search你的data。
Catch Fusion
Catch Fusion就是說,cluster of server事實上它有自己的catch,你可以把它的catch互相連結在一起,那你就能夠很efficiently的use那個catch。
Grid Computing
Grid Computing就有點像電話機一樣,電話機本身是很複雜的,就是有一個standard的interface,大家可以各做各的電話機,可是當你要選擇電話機的時候,你有不同的選擇它們都能夠provide,同樣的functionality,可是它們各有各的擅長的一些特性,比如說performance比較好或是比較reliable and something else,software現在也是朝這個方向在走,就是說一個software出來,事實上可以把它做成像這個Grid,就是說你有比較多的選擇到底要用哪個來run你的application。
Pluggable Components
Pluggable Components基本上就是讓每個Component能夠Pluggable,你今天有你自己的content behavior的話,你就Plug in你的東西進來,那就有辦法去run它,就跟你negative 的component是一樣的。
Self-tuning跟Self-healing
Self-tuning跟Self-healing,基本上就是有些system它能夠自己tune它的performance,把它調一調就知道你需要多少的catch,就可以比較optimize它的performance;還有Self-healing就是software它可以correct它的error。
Data warehouse
Data warehouse這個我們剛有講過,Traditional offline database doesn’t work well,我們需要real-time的responds even for decision support,所以說現在有一些in-memory data base、bit-map index,這些都是一些technology去讓Data warehouse能夠become more real-time。
on-line backup and Recovery
事實上還有一些on-line的backup,以前的一些backup都是要把整個弄成offline,讓user都不能去access這個data,現在都有on-line的backup跟recover。
Distributed database
Distributed database這也是很早以前就有,但是現在比較focus在hot replication,所以說你基本上就已經acting的stand by在這個 replication
的data,所以說你的delay就會become minimum。
Collections Partition
然後Fulltext Companies這些做search的company事實上也在provide一些Collection Partition,所以這同樣的mechanism讓partition base on它的range,就是說你不需要所有的data去做search,你的search base on range。
Better indexing mechanism for meta-data and content
通常的話metadata content是content,到時候如果是先從content server那邊search完,有可能把result存在database裡面become template table,再把metadata的search跟template table做聯繫,這個actual overhead就是讓整個process slow down下來,應該有一個比較好的index mechanism去handle這兩個together。
Better taxonomy support
Better taxonomy support 分門別類,就能夠讓你更容易去找到這些data。
Language Support
然後因為一些Object-Oriented Programming,最早的像c++已經不敷使用,就是像java、c#這樣新的Object-Oriented Programming,Agile跟Aspect的Programming都是讓你的system更容易劃定的。Dynamic Class Loaders也是類似的想法。Service Oriented Architecture我們剛剛有講過,就是說你可以在一個machine上同時run linux、microsoft的OS,這樣你可以更有效的利用一個machine。然後有一些standard、XML這個大家都已經知道了,還有一些security standard像MP5、CPI,這些都是security的algorithm。
Response from Hardware Vendors
在hardware也是有interesting的一些發展,像AMD、intel、apple這些公司它們在很早就有dual processor,基本上就是把兩個dual processor放在一個computer裡面,後來又有64-bit的PC,今年又有Dual-core這樣的processor,而基本上跟dual processor不同的是它的bus沒有share,除了bus其他東西各有自己的cup、自己的catch跟register區。但是它share bus,就是說兩套computing unit可以更efficiently的share information。Quad-core就是它有四個core,不是只是兩個而已,這個還不available,大概在2007年的時候才available,而sun它事實上offers更advance,它offers 8個core的chip。它今年已經出來了,每個core有四個threads,totally它一個chip裡面就有32個threads,這在web上的application上相當有用,因為在web上面,user通常都search something,然後它就log out出去,所以說你有這麼多的threading的mechanism,它就很容易滿足它的requirement。
The Opportunity
講了那多到底它的opportunity是在哪裡呢。我們看到這個diagram就可以發現,在西元2009年這樣的產業可能會到20億美金的產值,然後你也可以看到這個diagram,在2002 market事實上還是很低迷的時候,content management還是呈現很穩定的成長,而並不受market的影響,為什麼呢? 我剛才在前面已經強調過,在美國一個company的a…它很重要,它甚至決定這個company能不能run,所以他們都情願花一些錢來make sure它們的company能夠運作。
Big Players Attracted to the Market
而很多big players就因此開始進來了,像oracle他們最近基本上就是針對Enterprise content management的market做宣傳,而Microsoft它r今年也開始相當的focus在這個market。我們前任的founder他事實上還有開闢了另一條路,他到open source。大家可能都聽過open source,像最有名的open source就是LAMP,L就是Linux,A是apache server,M就是mysql這樣的一個data base的support,P就是PHP language的support,而現在又有open source for content management。
Where Is EMC Positioned
那ECM它的position是怎麼樣呢? 2003年買了Documentum公司,而Documentum是在Enterprise content management的leader,可以看出EMC和ECM滿相近的、滿巧合的,當初他們買我們的時候,我們也是覺得很有意思,我們是在EMC的market被ECM買起來,這好像是一個滿prefect的match。後來turn out也是一個good fit,後面我會跟妳們介紹一下,為什麼這是一個good fit,因為EMC他事實上是SAN跟network associate storage這兩個market的leader,這兩個market事實上是目前非常hot的兩個market,我們等一下會講一下這樣的一個market,它support information life cycle這樣的一個thing,它事實上不只是做content management,它把它extend到content或data從深到淺都manage。然後,它的revenue是$2.37 billion,overall,那$1 billion是從software進來的,就是說它本身已經是一個相當大的company,然後它是up 17% from a year ago,已經9個quarter都是double-digit growth,大概是十七、十幾的growth,12個quarter都in a met or exceeded自己的own targets,Net income was up 93% on a year-to-year basis including a tax-related benefit,然後45% without,這個公司被認為是最好的performance among all IT company in the world。
Gartner 2005 Report on ECM
這張圖事實上更進一步的跟你講說,現在到底事先market在ECM上的marker有哪些人,那個x軸跟你講說哪些人是niche players,哪些人是visionaries,visionaries就是說那些人有很多的vision、很多的美夢,而美夢能不能成真就要看你有沒有辦法去實行,有些公司是在這個象限,這邊還有有什麼象限。EMC事實上在這裡,它有很多美夢、很多的vision,它也有辦法去active它,所以說在一個相當好的position,IBM差不多是在我們旁邊,但是我們不是很care它,因為基本上它主要focus在不同的部份。Microsoft跟Oracle它們是在這個象限裡面,它們so far是niche player,但是事實上他們的威脅反而是我們比較complain。
這張圖是美國在早期有一個圈地的政策,當地一般州政府會定某一天,大家把你的最好馬匹帶來,就喊時間開時跑,而你為多大的地就是你的地,現在的場面就有點像美國在開發西部圈地的那個情況,大家就盡量的再畫自己的地盤,劃到的就是你的,事實上像這種劃地在當時是一種公平的政策,因為他們畫的地有時候可能是印地安人畜牧的放牧區,但是冬天的時候他們就跑到別的地方去過冬去了,而他們就把別人的放牧區圈起來,如果說把它拿來跟我們的軟體ECM比較起來,可以想像說我們現在也是在劃地,但是有些地可能是niche player的地,到時候把它佔起來以後他就沒有辦法進來了,所以說以後這塊版圖是長什麼樣子,就是很interesting的。可能到三年、四年以後這邊可能沒有多少的company在裡面,可能就只有幾家大家的在這裡。不過現再是一個戰國群雄並立的時代。
The Trend of Computing
然後這張圖主要告訴你的是去trend of computing,在早期50、60年代的時候IBM 剛到,它就是一個main frame旁邊都是terminal,這時候基本上每個學校大概都有一個機房,而研究生大都是唯一能夠進那個機房的人,它們那時候都被崇拜的像神一樣,你必須拜託他們幫你們送件或是幫你的program重新run一次,所以說IBM這時候是最神氣的時候,可是這樣子的場面也沒有持續多久,到PC出來以後,開始又一大堆人群雄並立,Microsoft windows、Intel他們就造成了一個很大的market,因為他們把computing從這個main frame shift到personal computer,而personal computer變成father,有很多東西已經不需要一定要到main frame去run,在這邊run就可以了。那你就可以想像,同樣的content在這方面也有一樣的作法,但是在這裡有不大一樣的就是說,Oracle它主要的market不是在change它的hardware,它是在create一些software來organize這些data,store在這些storage的device,因為這些data愈來愈多,已經沒有辦法再應付。早期也是IBM它有DV tool,但是它也是在main frame上面run,然後Oracle就開始因為這邊的power一直強起來,它就crate一些software讓你能夠management這些data,有些concurrences的mechanism都是它們更進一步發展出來的東西,因此也造成了一個很大的market。再來Cisco他們就發現這一條wire不需要是一個很down的wire,事實上它可能有一個router、switching的capability,它就可以create另外的一個market,這個傢伙不一定只能talk to這個傢伙,它可以talk to anyone hook out to這個network。那EMC他也發現了一個類似的,因為找來找去到底哪一塊還沒有人把它model more intelligence,那看來看去就是這一塊,這原來就是很棒的storage device,我叫你存依就存一,存二就存二,但是它們發現說,我事實上可以弄一些network associate的storage,事實上它本身就有一個IP address,它就create一些好的market,然後賣給那些高層的custom,它就賺了很多的錢;然後同樣的道理這一段wire,你不需要把它弄得很大,你只要比照這裡把它弄得很smart,它就可以支援special purpose的hardware、special purpose的network,讓這個machine能夠talk to different storage device,跟這邊的作用是有相同類似的因素。這個research事實上還是有很多,因為你可以發現早期的backup那些東西,都必須有一個cup在這邊,它基本上可以從這邊讀上去,再把它寫在不同的drive上面。這個傢伙事實上它有自己的IP Address,它有自己的computing power,如果說你可以直接configure它的話,這個傢伙事實上可以直接寫到這個傢伙去,它們可以互相talk,這樣就很interesting,因為你這個可以real-time的去做一些backup,然後另一個market也是很重要的,就是mobile computing,相信貴系也有一些research在這邊,早期的mobile的computing,我了解的是一個比較off-line的solution,像聯邦快遞他們有一個PDA、smart phone,這些driver它deliver一個package到某個customer的手裡叫他們算,算完以後就存在machine裡面,當他回到head call的時候他再把它受送machine上面去,現在很多事實上就是把這個當作一個真正的client,它知道它有一些wireless的functionality,它直接可以connect到anywhere,事實上make sense的real on-line的client,而這傢伙可以直接connect到這傢伙,你這邊做的update,直接就update到這邊的database,就可能有overhead在這裡,這時候pound又重新起來,因為早期的blackberry它有一些liquor的issue,而這個area的market也是很有potential的。然後我們也都知道google coming from nowhere或anywhere,事實上它也佔了一個很大的市場,而他也create了一個revolution on the software development跟delivering,它create的東西基本上就是跟web service有關係,它事實上可以deliver你的software on the web to anywhere and anytime,而且他也可以search on any machine只要你register the IP Address。現在它有更好的一些solution,你就可以deliver你的product at anytime,你不需要把所有都develop完才能deliver。
The Trend on Storage Device
Storage Area Network
我們剛有講過Storage Area Network,基本上這邊在稍為加一點解釋,這個network事實上就是High-speed special-purpose network,它只是connect storage跟machine所以它可以達到High-speed,它也可以connect different kind的storage device,然後基本上這邊可以support Disk mirroring, backup and restore, archival跟retrieval of archived data,所以只是說目前是怎麼樣在用SAN這樣的一個東西。
Network Attached Storage
NAS基本上是一個Hard disk storage that is set up with its own network address
,基本上它就是一個IP Address,你不用attached to一個department computer
或是any computer,它自己本身事實上就有他自己的computing power,第三個我已經講過了,就是你remove那個overhead,事實上你可以make whole process more efficient
Researches on (NAS and SAN)
目前有一些research on這個NAS跟SAN,主要就是讓storage become more active,不是說像傳統的bit by bit或byte by byte的一個storage machine,你事實上可以想像說當你能夠把這些application,主要是search 跟database,deal on pop的storage device的時候,你事實上就有可能取代Oracle它們那種地位,因為他們還是run在another computer,它們還是有那個overhead。但是現在基本上還在paper work上面,所以不同的programming model是stream-based、Multi-View Storage System還有parallel file systems,RPC-based framework還有一些partitioned的mechanism,甚至於有的人提出要把它變成object-base的storage,這東西到底多visible目前還不知道,因為工商業目前還沒也真正做到這個,EMC做的最多的只示content accessible,那就是說它provide一些content actively的值,你就可以去locate那個file,跟傳統的說你知道machine code去找,這是完全不同的mechanism,但是到這種地步還有一段距離,事實上還是far away。
Conclusion
Lots of opportunities are still there for academy and industry
這裡是最後一張slides,Conclusion就是說在industry跟academy上面,還是有非常多的opportunities你們可以work on,像你還是有辦法碰到比較好的performance的algorithm,像我前面講的index的algorithm for the content的meta data content的indexing,還有一些security、Reliability,security也是一個很重要的因素,一般來講最secure的MP5這個algorithm,據說去年已經被大陸四個還是五個女研究生,他們把它破解了,他們是破解了,但是還沒有develop成commercial use,就是說還沒有辦法讓那些hacker來做一些犯罪的動作,但是已經有人break它了,這就是表示你在algorithm上always has way to find better algorithm,Automatic Failover也是something interesting to work on。還有就是你怎麼樣有一個比較好的programming model,像java1.5 新增了一些new features,而我們公司也rely on這些new features。Problem Modeling mechanism很多時候理論上的Problem Model跟reality事實上不是很接近的,理論上你想找到optimum的solution,但是industry你找不到optimum的solution怎麼辦,你不能說這個東西就不做了,你就要找一個top optimal的solution,基本上它就是80%、20% rule,如果說有人找到ㄧ個algorithm到80 percent的case是可以run到optimal的話,這樣基本上就acceptable,在20%你就用special case來處理它,這樣也是一個solution。
Changes are a must for survival and success
最主要就是Changes are a must for survival and success,你必須知道這整個environment都在改變,今天是對的明天可能不是對的,其實你在讀書的時候也要有這個體認,如果說你學的愈廣愈深的話你就愈有機會成功,然後這個就是我今天演講的結論。