在Internet有一些非常有名的搜尋引擎,諸如:
這些資訊站皆各具特色,各領風騷,他們都提供了無數免費的資訊查詢服務給廣大的網路使用者,亦是目前網際網路上最熱門、最受歡迎的超級大站。一般而言,要架設此類搜尋引擎,需要相當難度的軟體技術與極佳的硬體資源。它必需具有高效率的資料蒐集器(datagatherer)、能夠處理鉅量資料的索引與查詢引擎、完善的WWW查詢界面、寬廣的網路頻寬(如T3連線)、與絕佳的硬體配備。舉例而言,DIGITAL公司的超級大蜘蛛,其中負責索引工作的那部電腦,光是主記憶體,就有6GIGABYTES!!乃是該公司所製造運算能力最強大的一部電腦。但是,這類搜尋引擎亦有一些美中不足的問題,或未來的隱憂:
1.大多數搜尋引擎,只針對單一或極少數的資訊類別提供查詢服務。
2.都無法完全正確的搜尋亞洲國家等雙BYTE編碼之資訊。
3.由於需要經常蒐集全世界大多數WWW站的家頁,這些搜尋引擎的資料蒐集器,可能會耗費很多網路頻寬資源。
4.在處理查詢時,多數沒有考慮到地域性,例如,一個在台灣的使用者,有可能所要找尋的資料在台灣的某一個WWW站就有了,然而透過查詢的結果,卻讓他從美國去取得該資訊,如此徒然浪費網路頻寬,亦增長取得該資訊所需的時間。
5.有時候,由於這些搜尋引擎涵蓋的資料實在太龐大,查詢的結果列出太多資訊,反而使得使用者必須在那眾多的查詢結果裡,費時的找尋真正所要的資訊。
6.WWW資訊量的成長極為快速,當網路上的資訊量成長到目前的數十倍,甚或數百倍時,此種集中式的超級搜尋引擎將面臨嚴重的瓶頸,要再索引全世界WWW站將變的極端困難,也可能變的不切實際。一個好的搜尋引擎的建立與維護都須要很大的工夫,為了因應未來越來越多的網站成立,其所需要的成本更高,因此尚需克服一些根本的技術難題,諸如超級鉅量資訊(TeraBytes級)的索引、智慧型的檢索功能、階層式與分散式的查詢處理模式、完善的資訊分析、過濾、摘要、分類、與管理功能,高效率的資訊分佈、運輸(transmission)、暫存(caching)、複製(replication)等之技術,與一個能夠互相協調分工合作的階層式資訊伺服系統架構。
目前的網站除了搜尋引擎,還有目錄服務,前者主要的技術是到各個網站主機把資料取回後分析,也因此常常找到的並不一定是我們所要的資料,而後者主要的技術是分類和分層的方式,不過可能也會因認知上的差異使得資料並不如想像中容易好找,他們的共通點是都是由電腦的程式自動去抓取,在由人工或程式來分類整理,不過這些大部分已經做到極限了,然而,隨著電子商務的熱門興起,個人資料採集和代理人程式變成目前新興的研究課題,而自然語言處理也一時之間成為重要學科,搜尋引擎目前逐漸轉型成為入門網站為多數,所幸網頁編寫的語言越來越多樣化,也使得個人隨性的動態網頁成為主流,畢竟大家的習慣還是先關心自己有興趣的內容和新聞。
搜尋引擎的運作方式主要分為兩種:關鍵字索引、概念式搜尋。
1.關鍵字索引,顧名思義是利用關鍵字或片語做為查詢與索引的基準物。現在的搜尋引擎絕大部份都是應用關鍵字索引。為了查詢時的需要,搜尋引擎必須先在每篇文件中找出具有真正意義的字詞片語或文章片段,來當做這篇文章的關鍵字,而這些用做索引的關鍵字主要都是由搜尋引擎來決定,有些則是由文件的提供者所指定。由搜尋引擎所決定的關鍵字產生方式有許多種,有些搜尋引擎利用標籤中的描述來決定關鍵字;有些是以文件前數百個字或前幾行中出現頻率最高的字詞當做索引關鍵字;有些則將整篇文件字詞出現次數加以計算,找出最多的字詞當做是這份文章之關鍵,並利用它們來做索引。利用關鍵字做索引非常易於查詢,只要使用者輸入一些字詞片語搜尋引擎便會把結果輸出。對於很清楚自己要查詢何種資訊的使用者來說,使用者可以很快獲取資訊。但對一個根本不知道究竟要找甚麼的使用者而言,這種方式很難找到資源;此外,這種的方法常會找到一些不是我們想要的資訊。
2.概念式搜尋,這種概念索引方式是將所找到的文件加以區別並建立資料庫,當使用者輸入搜尋字詞時,搜尋引擎是先找出你要搜尋的概念並加以分析搜尋之範圍,然後才給你真正的搜尋結果。也就是說,這種方式是以字義的方式來搜尋,而不是單純從字形來搜尋,這種作法相當複雜,但相對地,卻更加人性化。對同一個字而言,這種方式會先抽取其概念再搜尋,也就是說,對於不同範疇而言,會找到所有與指定概念有關的資訊。但這種搜尋方式非常複雜且困難,其能力端看搜尋引擎而定,有時反而找不到想要的資源,而且它們也不一定很值得信賴,這些方便性都只是理論上而已。