TCST

Outline

簡介

簡介

研究方向

研究重點

大數據分析三大步驟

台中市的交通環境

資料 Schema

資料 RideLog

機車eTag

研究題目

基本統計

票種搭乘比例

全票搭乘次數級距統計

霧峰地區公車路線

各路線乘客數

載客率

平均載客率

天氣效應

Bus 100 行車時間

Bus 100 行車時間

Bus 100 乘載律變化

Bus 100 乘載律變化

乘客上下車站距分析

Bus 53 行車時間

Bus 53 行車時間

Bus 53 乘載律變化

Bus 53 乘載律變化

乘客上下車站距分析

銀髮族搭乘公車之行為模式

銀髮族 - 探討的問題

中市敬老卡搭乘次數級距統計

Top 48 敬老卡熱門下車站

銀髮族下車熱點農曆分佈 干城

銀髮族下車熱點農曆分佈 一心市場

銀髮族下車熱點農曆分佈 第三市場

銀髮族搭車季節分佈 季節分佈

銀髮族搭車頻率與造訪醫院的關聯

關聯性 vs 科學證明

高中生上下學搭車行為

高中生上下學搭車行為

大數據分析的路障

資料品質

資料的品質與整備

RideLog Field

資料整備-缺少上下車站名

資料整備-奇怪的資料

資料整備-同站不同名

資料整備-同站不同名

資料整備-同名不同站

資料的缺陷

資料的檢核

加速

加速大數據資料的運算

資料減肥

加速大數據資料的運算 - 我們的經驗

Code

Top Riders

DBMS Vs. Native Environment

結論


Untitled Document
Outline
大數據分析 簡介
台中市交通大數據
基本統計
銀髮族搭乘公車之行為模式
關聯性 vs 科學證明
大數據分析的路障及其對策
結論
Wed Mar 27 19:52:10 CST 2019 Untitled Document
簡介
Wed Mar 27 19:52:10 CST 2019 Untitled Document
簡介
 
台中市政府交通局與亞洲大學資電學院及 中興大學資工系合作設立 「台中市智慧交通大數據研究中心」 運用公車大數據進行分析研究將成果, 作為台中市政府政策規劃參考。
 
台中市是全台唯一實施公車全面里程計費縣市,目前已擁有完整2億筆以上公車旅次起迄電子票證刷卡資料,運用公車乘客上下車站位資料建立「電子票證大數據資料庫」,進行公車旅行時間分布分析,改善交通路網。
 
亞洲大學資電學院團隊成員
連耀南
林君維
潘信宏
鄭家年

廖淑娟
莊淑惠
王俊毅
王經篤
林佳漢

何承遠
龐玉涓
蔡志仁
孫旻暐
Wed Mar 27 19:52:10 CST 2019 Untitled Document
研究方向
交通

讓公共交通更順暢,更方便,更安全
社會

讓市民更健康更幸福
Wed Mar 27 19:52:10 CST 2019 Untitled Document
研究重點
現階段研究重點
 
注重社會公益面 (Societal Impact)
   
e.g. 健康取向的銀髮族搭車行為分析
 
注重使用者面向 (User Centric)
   
e.g. 增加公車族轉乘方便性
   
e.g. 分析各不同的客運公司車速
   
e.g. 精準行銷
Wed Mar 27 19:52:10 CST 2019 Untitled Document
大數據分析三大步驟
Data
取得資料,統計分析
Knowledge
專家解讀,歸納知識
Action
根據解讀結果提出運用方案
Wed Mar 27 19:52:10 CST 2019 Untitled Document
台中市的交通環境
   
臺中市的都市道路規劃呈蜘蛛網狀分布, 由數條放射狀的連外幹道(臺灣大道、五權西路、中清路、北屯路等) 及環繞市區的環狀幹道(忠明路、文心路、環中路)所組成的。
 
捷運綠線正在興建中,公共交通完全仰賴公共汽車
實施 8/10公里免費前
   
公共汽車路線少,班距長,票價貴 公車公司陷入營利差,服務品質差的惡性循環
實施 8/10公里免費後,
   
公車公司大力投資,增購公車,增聘司機,縮短班距,開發新路線,提升服務品質, 吸引大量的公車族,增加營收,形成正向循環

 
10 公里免費政策 引導特殊的搭乘行為
Wed Mar 27 19:52:10 CST 2019 Untitled Document
資料 Schema
Wed Mar 27 19:52:10 CST 2019 Untitled Document
資料 RideLog
公車上下車刷卡資料
 
97.6 Million Records
   
2015年1月1日~2016年2月29日
   
共425天 (工作日285天、放假日140天)
 
99.6%乘客用電子票證,僅0.4%乘客用現金
   
資料的樣本代表性 很高
Wed Mar 27 19:52:10 CST 2019 Untitled Document
機車eTag
在數千部機車上裝 eTag
重要路段裝設 eTag Reader 記錄車流
可做及時路況監控 及 交通疏導至指標
Wed Mar 27 19:52:10 CST 2019 Untitled Document
研究題目
研究團隊 題目 簡介
鄭家年
以初級資料為基礎公車路線績效評估之研究
使用原始搭乘紀錄進行更細緻的分析公車路線績效,設計更合理的公車路線方案。
蔡志仁 副教授
設計台中路網即時危險指數以改變使用交通工具行為的研究
整合台中公車路網及車禍資訊與車輛偵測器感測值產生即時的且動態的交通危險指數給駕駛參考
連耀南、何承遠
電子票證大數據應用於台中市公車旅客型態之研究
分析公車的乘客使用型態、多少乘客受惠10公里免費政策及多少乘客常搭公車和其次數。
何承遠 學生:黃致鈞、黃意中、林瑋澤、吳紹綸
台中霧峰公車優化計畫
分析公車常態性或臨時性發生異常發車延誤或客滿時段,提供警示或?其他路線方案予使用者
連耀南、廖淑娟、何承遠
銀髮族於台中市搭乘公車之行為模式分析
分析銀髮族於台中市搭乘公車之行為模式,並提供銀髮族社福政策制定之參考
李有仁、連耀南、廖淑娟、何承遠
銀髮族搭乘公車之頻率與健康程度之關聯性研究
研究常搭乘之銀髮族是否較為健康?較少去醫院等醫療機構?
王經篤
搭乘最大重複路徑抽取與類別次數統計分析
提供各路線公車,任意兩站的乘客搭乘的類別次數統計
蔡崇煒
交通號誌控制、交通大數據呈現介面
以最佳化問題解決交通號誌決定紅綠燈時間,減少車輛等待時間,建置一個大台中,各項以悠遊卡搭乘之運輸系統,
連耀南
智慧型公車轉乘 App
結合即時公車到站資訊與歷史資料設計出最佳轉乘路線
連耀南
學生上下學公車提速之研究 (跳蛙公車 2.0)
找出上下學時段各國高中常搭路線,若有壅塞延誤情況,新增學生專車,在不增加經營成本的情況下,加快疏運速度。
Wed Mar 27 19:52:11 CST 2019 Untitled Document
基本統計

基本統計 
Wed Mar 27 19:52:11 CST 2019 Untitled Document
票種搭乘比例
Wed Mar 27 19:52:11 CST 2019 Untitled Document
全票搭乘次數級距統計
以公車為主要交通工具者 合計不到1成
 
以上統計資料是以卡為基準,並非以人為基準,
 
如果考慮到一人多卡的現象,統計資料須修改,但趨勢不變
Wed Mar 27 19:52:11 CST 2019 Untitled Document
霧峰地區公車路線
Wed Mar 27 19:52:11 CST 2019 Untitled Document
各路線乘客數
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
載客率
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
平均載客率
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
天氣效應
   
天氣效應遠不如學校的行事曆顯著
   
絕大多數乘客是學生
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
Bus 100 行車時間
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
Bus 100 行車時間
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:11 CST 2019 Untitled Document
Bus 100 乘載律變化
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Bus 100 乘載律變化
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
乘客上下車站距分析
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Bus 53 行車時間
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Bus 53 行車時間
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Bus 53 乘載律變化
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Bus 53 乘載律變化
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
乘客上下車站距分析
   
資料與圖片來源: 為亞洲大學 大數據研究中心研究組組長,經營管理學系助理教授 鄭家年
Wed Mar 27 19:52:12 CST 2019 Untitled Document
銀髮族搭乘公車之行為模式

銀髮族搭乘公車之行為模式
Wed Mar 27 19:52:12 CST 2019 Untitled Document
銀髮族 - 探討的問題
 
銀髮族使用敬老卡之比率
 
銀髮族最常搭公車之目的地
 
常搭乘公車之銀髮族是否較為健康?
 
提高敬老卡之補助額度會增加多少市庫負擔?
Wed Mar 27 19:52:12 CST 2019 Untitled Document
中市敬老卡搭乘次數級距統計
Wed Mar 27 19:52:12 CST 2019 Untitled Document
Top 48 敬老卡熱門下車站
CountGeneral CountSenior
3953509臺中火車站244567臺中火車站
2362017臺中科技大學69434干城站
1247107中友百貨58920東勢
1114733新光遠百55147中友百貨
766443僑光科技大學46327臺中科技大學
743824秋紅谷44872一心市場
626998干城站44515第三市場
595454靜宜大學38099榮總東海大學
589174一心市場37021豐原
580974高鐵臺中站34655高鐵臺中站
557072科學博物館34293豐原郵局
555686東海別墅33085霧峰
529322榮總東海大學32832中國醫藥大學
513909福星西安街口32824新光遠百
434022臺中一中32344五權學士路口
413922五權學士路口29084媽祖廟
355201逢甲大學25149大甲火車站
350153第三市場23232水湳市場
330083中山醫學大學21944沙鹿光田醫院
328400臺中高工(高工路)21874中興堂
321984僑泰中學(高工路)20553光復國小(三民路)
288658中興堂18933監理站
274901澄清醫院18542臺中二中
273067市政府17898南平里
267273霧峰17133大坑口
221121頂何厝16398仁友東站
216187仁友東站15291彰化銀行
212254第一廣場15151大德國中
204922弘光科技大學14800大坑圓環
203270中山堂13495秋紅谷
202825中港新城12921聯安醫院
199765臺中國小12114大雅
187625彰化銀行11780谷關
184727朝馬(臺灣大道)11755潭子火車站
177783朝陽科技大學11660臺中公園
171889媽祖廟11528第一廣場
171787福安11528沙鹿市場
169351潭子火車站11451科學博物館
168491中國醫藥大學11413大甲
162948後火車站11249臺中國小
157179坪頂11239清水
155929忠明國小11155頂街
154090豐原11146中興仁化路口
152324玉門路11092第二市第二信
150812中興仁化路口10998民權繼光街口
140552茄苳腳10581省議會
136953東勢10418第二市場
136165監理站9399中山堂
126632工學一街口9361聖德禪寺
Wed Mar 27 19:52:13 CST 2019 Untitled Document
銀髮族下車熱點農曆分佈 干城
Wed Mar 27 19:52:13 CST 2019 Untitled Document
銀髮族下車熱點農曆分佈 一心市場
Wed Mar 27 19:52:13 CST 2019 Untitled Document
銀髮族下車熱點農曆分佈 第三市場
Wed Mar 27 19:52:13 CST 2019 Untitled Document
銀髮族搭車季節分佈 季節分佈
Wed Mar 27 19:52:13 CST 2019 Untitled Document
銀髮族搭車頻率與造訪醫院的關聯
Wed Mar 27 19:52:13 CST 2019 Untitled Document
關聯性 vs 科學證明
事件相關性 != 科學證明
 
數據分析必須輔以實地驗證 方能獲得真正的結論
問題:
 
所需經費 人力 與 時間 均與探索的問題的價值不成比例
大數據分析提供一個簡便低成本的驗證方法
 
由使用者決定是否接受 數據分析的結果
Wed Mar 27 19:52:13 CST 2019 Untitled Document
高中生上下學搭車行為
挑戰
 
因為十公里免費政策,學生使用一般卡搭車,而非學生卡,無法直接辨認學生持卡人。
 
學生可能持用多張卡片,上下學可能使用不同卡,
 
為節省時間,為節省車費而頻繁非必要轉車的機會極少,但仍會因其他因素而使用多張卡片搭乘同一旅程之機會
 
上午下午可能使用不同卡片
 
上午下車地點 與下午上車地點未必相同
 
同一學校的學生的上下車,可能分布在數個不同站牌
 
學生上學較為直接,直達目的地,但下學則較為複雜,可能並非直接回家
如何辨認學生持卡人 ?
 
挑選高中站牌,每一個高中站牌,挑選上學時段在該站牌下車超過每年100次的,作為學生樣本。
統計
Avg Single-Trip Riding Time (Per Card) Avg Single-Trip Riding Time Distribution Avg Single-Trip Riding Time (Per School) Wed Mar 27 19:52:13 CST 2019 Untitled Document
高中生上下學搭車行為
 
上午上學較為直接、以最短時間到達學校, 到校時間較集中
   
少部分學生上學搭公車超過60分鐘
 
下午下學時較為間接,複雜,可能花較多時間,離校時間較分散
   
中途逗留時間較長,可能去補習班,或同學糾團作其他事。
 
上下學不一定使用同一張卡
Wed Mar 27 19:52:13 CST 2019 Untitled Document
大數據分析的路障
領域知識
資料缺陷
運算速度
Wed Mar 27 19:52:13 CST 2019 Untitled Document
資料品質

資料的品質與整備
Wed Mar 27 19:52:13 CST 2019 Untitled Document
資料的品質與整備
大數據研究最大的障礙之一:不易清除原始資料中的瑕疵
 
TCST 資料來自於各公車公司提交台中市政府申請補助款的資料
 
上下車刷卡時,時有故障及異常刷卡行為
 
市政府委外整理資料
產生異常資料的原因很多,不易追蹤,亦不易更正
在資料整備階段,沒有現成的工具可以協助
Wed Mar 27 19:52:14 CST 2019 Untitled Document
RideLog Field
RideLog
# Name # Name
1 Id 18 AlightTime
2 OperateDate 19 AlightCostMoney
3 RouteNo 20 AlightTransferMoney
4 RouteStart 21 AlightDifferenceMoney
5 RouteEnd 22 AlightStopSerial
6 Plate 23 AlightStop
7 CardCompany 24 AlightChargeStop
8 TicketType 25 AlightTransferCode
9 CardNo 26 Direction
10 BoardTime 27 SubTotal
11 BoardCostMoney 28 FileName
12 BoardTransferMoney 29 CreatTimeUtc
13 BoardDifferenceMoney 30 AbsoluteBoardStopId
14 BoardStopSerial 31 AbsoluteAlightStopId
15 BoardStop 32 AbsoluteBoardNameIsCorrect
16 BoardChargeStop 33 AbsoluteAlightNameIsCorrect
17 BoardTransferCode 34 IsArrange
#.bp Clean01 Clean 資料整備 資料不全與異常資料
Regular Data Integrity
 
Artificial Primary Key 保證每一筆資料是唯一的
 
但也 掩蓋了資料缺失的問題
額外的 Data Integrity
 
同一筆搭乘資料 必須有上車站名,卡號,等資訊
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料整備-缺少上下車站名
Month Total # of Tuples Missing Off-Bus Missing On-Bus Missing On-Off-Bus
Count Ratio Count Ratio Count Ratio
19276813632220.006815068098.72067e-0588.62365e-07
26483469544110.0083922710710.00016518934.62715e-07
35542962490890.008856141590.000750321417.39677e-06
47725663539860.0069878810370.00013422822.58877e-07
59133647618760.00677451108840.0011916422260.000243714
63975473602880.01516557920.0014569321640.000544338
743701361730540.0395992104450.0023900926850.000614397
841337951536790.037176349750.0012034941400.0010015
945179691615860.035765282490.00182582205550.00454961
1090043451624940.018046286820.0009642013329900.036981
1192139972279090.0247351147510.001600933643.95051e-05
1294422842278040.0241259111330.001179063413.61141e-05
Year8282055314493980.0175005819870.0009899353655190.00441339
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料整備-奇怪的資料
 
上下車同一站
 
異常車速 (上下車時間間隔太短 甚至是負值, 下車時間早於上車時間)
 
深夜班車 (收班後的上下車紀錄)
 
不存在的站名 : 彰化銀行第一廣
 
上下車站名不在公車路線: 50路公車在大坑口, 臺中精機, 中科大民生校區,貿易三村,澄清醫院等站上下車
 
重覆的資料(同一張卡片在同一個時間有相同的上下車站名)
Record No.Bus Card No. Bording Time Bording Stop Alight Time Alight Stop Date
6129637277628360783389 市場前445 新民高中1/22
6251830277628360783389 市場前445 新民高中1/22
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料整備-同站不同名
同一個招呼站有不同的站名:
 
正常 vs 異常
臺中火車站 臺中車站 台中火車站 2臺中火車站
中興大學 中興大學(國光路) 中興大學(興大路)
公益公園(公益路) 公益公園(忠明南路)
文心森林公園 文心森林公園(文心路)
水湳市場 水湳市場(中清路)
東勢 東勢B
科博館 科學博物館 科學博物館(臺灣大道)
秋紅谷 秋紅谷(朝陽橋)
高鐵臺中站 高鐵臺中站(13月台)
清水 清水站
第二市場 第二市場(三民路) 第二市場(臺灣大道)
第三市場 第三市場(臺中家商)
逢甲大學 逢甲大學(逢甲) 逢甲大學(逢甲路) 逢甲大學(福星) 逢甲大學(福星路) 逢甲大學福星路 逢甲福星路
朝馬 朝馬(臺灣大道)
新民高中 新民高中(三民路) 新民高中(崇德路)
新光/遠百 新光三越 新光遠百
彰化銀行(自由路) 彰化銀行(臺灣大道)
臺中榮總 臺中榮總(臺灣大道) 榮總/東海大學 榮總東大學 榮總東海大學
漢翔公司(星享道) 星享道
臺中公園 臺中公園(三民路) 臺中公園(雙十路)
臺中科技 臺中科技大學 國立臺中科技大學 台中科技大學
臺中高工 臺中高工(高工路)
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料整備-同站不同名
利用領域知識分辨
   
彰化銀行(自由路),彰化銀行(臺灣大道)
   
中興大學 (興大路), 中興大學 (國光路)
用經緯度來辨別
 
但 某些站沒有經緯度
   
中興大學有三個站名,但只有兩個有經緯度
   
中興大學 (興大路) 及 中興大學 (國光路)
Violation of Referential Integrity !!
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料整備-同名不同站
 
臺中火車站各招呼站 分布很廣
 
根據研究目的來決定是否要區分
   
Non Relevant: 研究下車站的目的性
   
Relevant: 轉乘協助
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料的缺陷
為了使用10公里免費優惠,導致搭車行為的變化
增加轉乘次數
輪流使用敬老卡與一般卡
輪流使用多張卡片
下車站牌與真正的目的未必相符:
 
例 在醫院站牌下車可能
探病
工作
其他
需要更精準的歸類乘客行為
在一心市場下車者,去中友百貨的機率很高
火車站有多個不同的站牌
Wed Mar 27 19:52:14 CST 2019 Untitled Document
資料的檢核
 
資料量太大,無法利用人力檢核
 
需用電腦程式協助檢核
 
依靠經驗去探索資料
 
聚焦於重要資訊
Wed Mar 27 19:52:14 CST 2019 Untitled Document
加速

如何加速大數據資料的運算?
不可能將整個資料庫裝進主記憶體
可以用筆電快速的進行運算嗎?
 
簡單的統計運算必須在數分鐘內完成
 
例如 2015/01 Top 50 乘客下車站
Wed Mar 27 19:52:14 CST 2019 Untitled Document
加速大數據資料的運算
盡可能不要透過 DBMS 來做運算
 
資料分析不須要 更新資料,DBMS 的作用只剩下 SQL
 
用 SQL 做資料分析有時很不容易,
   
例如 每天股票價格與前一天的股價相比
盡可能將簡單的運算直接用 unix command 或 R/Pyshon 等系統來做
 
越低階越好
避免將不必要的欄位載入資料庫,灌爆主記憶體
資料減肥
Wed Mar 27 19:52:15 CST 2019 Untitled Document
資料減肥
a3adde36-1a35-484e-b582-6048e4ed4783
21a4622e-9d4d-4bc3-a3e9-8f0ead345df8
b656eb43-55cd-4879-a3b8-6a4befa41f43
52cbbb2f-e83d-409d-a568-7471da1e358f
575c0e37-b269-48c4-9099-7db1683678ad
cbe78114-8d09-43f9-8240-c45236c2c045
587087dc-112a-48bd-b69f-81d38eb56c87
6583685c-c8a4-4b42-be28-22bb05213ab0
Wed Mar 27 19:52:15 CST 2019 Untitled Document
加速大數據資料的運算 - 我們的經驗
原則
 
1. 將 ridelog 做 vertical partition 將每一個欄位切成一個檔案
 
2. 針對有需要的欄位合併檔案
 
3. 資料減肥
 
4. 使用 SSD 加速資料讀取速度
 
5. 使用 Native Shell Script
試驗
 
將資料裝到一部 高階 SSD筆電
 
在 UWIN 虛擬 Unix 下 試 "下車站" 這個欄位
sort file | uniq -c | sort -rt
   
Data size: 9270492 筆
   
只花了不到 一分鐘 就完成
Wed Mar 27 19:52:15 CST 2019 Untitled Document
Code

#=================================
# Monthly Riding Record By Card ID
#=================================
for i in 01 02 03 04 05 06 07 08 09 10 11 12
do
   paste -d',' ../DATA/$i-8.csv ../DATA/$i-9.csv > tmp$$.o
   sed '/代幣/d'  tmp$$.o > $i.csv
done
#================================================================
# Accumulate Yearly and Split Card ID and By Leading Hex number
#================================================================
for i in 0 1 2  4 5 6 7 8 9 A B C D E F
do
   for j in 01 02 03 04 05 06 07 08 09 10 11 12
   do
      grep "^$i" $j.csv
   done > G$i
done
#==================================
# Count Riding Frequency by Card ID
#==================================
for i in 0 1 2 3 4 5 6 7 8 9 A B C D E F
do
   sort G$i | uniq -c | sort -rn > cardcount-$i.csv
done
#========================================
# split cardcount by riding count
#========================================
#=============Single Digit===============
for c in 1 2 3 4 5 6 7 8 9 
do
   for i in 0 1 2 3 4 5 6 7 8 9 A B C D E F
   do
      grep "^$c," cardcount-$i.csv
   done > splitcardcount-$c.csv
done 
#=============Double Digit===============
for c1 in 1 2 3 4 5 6 7 8 9 
do
   for c2 in 0 1 2 3 4 5 6 7 8 9 
   do
      for i in 0 1 2 3 4 5 6 7 8 9 A B C D E F
      do
	 grep "^$c1$c2," cardcount-$i.csv
      done > splitcardcount-$c1$c2.csv
   done 
done 
#=============Triple Digit===============
for i in 0 1 2 3 4 5 6 7 8 9 A B C D E F
do
   grep "^[1-9][0-9][0-9]," cardcount-$i.csv
done > splitcardcount-999.csv
#=============1000 time and above ===============
for i in 0 1 2 3 4 5 6 7 8 9 A B C D E F
do
   grep "^[1-9][0-9][0-9][0-9]," cardcount-$i.csv
done > splitcardcount-9999.csv
#============= Top Riders ===============
sort -nr *9999.csv | head -20 > TopRider.csv
Wed Mar 27 19:52:15 CST 2019 Untitled Document
Top Riders
4974 565175BC
2056 611DBE05
2026 AAFDD2A8
1889 C0DB30C3
1825 2A340BF4
1741 DB16B350
1717 B0197131
1680 2046615328
1593 137D8AD1
1568 D3A26D83
dir=../DATA
for i in 01 02 03 04 05 06 07 08 09 10 11 12
do
      paste -d',' $dir/$i-9.csv $dir/$i-15.csv $dir/$i-23.csv >
91523-$i.csv
done 
for id in `cut -d',' -f2 TopRider.csv`
do
     grep $id  91523-*.csv | cut -d',' -f2,3 > $id.csv
     sort -t',' -k 1 $id.csv |uniq -c | sort -rn >
OnStop-$id.csv
done 
Wed Mar 27 19:52:15 CST 2019 Untitled Document
DBMS Vs. Native Environment
DBMS Native Environment
服務對象 Multiple Users Single User
介面需求 彈性 (SQL) 簡單,特定問題
Overhead
優化責任 系統 使用者
適用情境 個別資料的更新
不須掃描整個資料的查詢
不須更新
需掃描整個資料庫的查詢
Wed Mar 27 19:52:15 CST 2019 Untitled Document
結論
 
常用敬老卡的銀髮族最常搭車到傳統市場及商場或商業區
 
銀髮族的搭車頻率 與 造訪醫院的頻率高度負相關
 
從交通行為中發掘社會應用具有重大社會意義
 
解讀資料必須具備真正的領域知識
 
必須注意資料的缺陷 避免陷阱
 
資料的品質通常很糟,需要整備,否則 GIGO
 
需要快速簡便的程式設計能力以支援資料探索的需求
 
善用工具
Wed Mar 27 19:52:15 CST 2019