今天為了找社團營隊講義的資料,看到這篇《滑鼠37年歷史回顧與導購經驗詳談》,對於各種滑鼠有非常詳盡的介紹,值得看一看,以後買滑鼠或是看介紹時也可以有更清楚的概念。
Category Archives: IT Talk
智慧插座
前幾天老闆拿 《Computer》雜誌給我看,有一些關於 Smart Home 架構的文章。其中 《The Gator Tech Smart House:A Programmable Pervasive Space》這篇講到許多 Smart Home 的概念產品,而以 RFID 作為插頭和插座的 Smart Plugs 是我覺得最有可能在短時間內實現的產品。
(Original: Computer Magazine)
簡單的說,每一個家電的插頭都附有一個 RFID 可以用以辨識,而插座則裝有 RFID Reader,當插頭插上時就可以通知主控系統該裝置已經上線。
更一步的設計是讓每一個家電可以擁有共通的控制介面,例如,開/關。中控電腦可以透過智慧插頭來瞭解每一個家電的狀況,並且透過插座來傳送指令/資料,以達到中央控制的目的。
不過以短期來看的話,我覺得這個設計會先用在省電上。透過智慧插座和插頭,使用者可以很精確的統計每個家電的用電量,並進一步配合家中活動狀況(Actitivity Level)來瞭解是否有浪費電的情形,甚至在家中無人時,自動關閉特定的裝置。
在這邊要克服重新佈電線的困難。一個暫時的方式是把插頭上的 RFID Reader 改用 BlueTooth、WiFi 或是 Wireless USB 來傳回中控電腦,這樣只需要把現有的插座拔下來換掉即可。
上述的情境離我們並不遠,甚至可以說近到令人難以想像。唯一的困難點是專利和國際標準兩個障礙,不知道台灣人,是不是能夠趕上這一波挑戰呢?
參考資料:
《The Gator Tech Smart House: A Programmable Pervasive Space》
淺談廣告信與 Data Mining
本文是期末報告作業,寫得不好請海涵。Gslin 在 newzilla 雜誌也寫了一系列關於 AntiSpam 的主題,有興趣探討其他相關內容的可以一併參考。
每一封 E-mail 都有兩個主要的部份: header 和 body 。 Header 的部份包括了信件的來源、時間、郵件主旨、編碼、經由哪些伺服氣遞送、以及最初的寄送者 IP 等等; body 的部份則是文件的內文和附檔等等。如果再進一步細分,在 header 的部份還包括了 RFC 規定的 header 、和 X- 開頭的自訂欄位,如表。
| 標準 E-mail 信件的範例 | ||
|---|---|---|
|
標準 header |
From return@trafficmagnet.net Wed Jul 24 22:22:59 2002 |
|
|
Optional header |
X-Mailer: CSMTPConnection v2.17 |
|
目前來說,判斷 spam mail 大略有幾種方式:
• 以來源來判斷
• 以信件的型態來判斷
• 以信件的內容來判斷
• 以使用者行為來判斷
上述四種方式分述如下。
以來源判斷
我們假設寄廣告信的人經常使用特定幾個 IP Address ,所以如果我們可以把這些不當使用者的來源都建立成一個資料庫,那麼 mail server 在收信前,只要先檢查信件是否來自這幾個特定的 IP ,就可以過濾掉一些常發廣告信的來源。不過,由於 E-mail 也有 relay 的機制,因此單單過濾最初發信的來源仍然不夠,還需要把一些 open-relay 的 mail server 也列管,原因是這些 open-relay 的 mail server 很有可能會轉送廣告信給我們,使得這樣的防護方式產生漏洞。所謂的 RBL(Relay Black List) 就是這樣的列管名單,透過全世界 E-mail 系統管理者的共同努力,提供全世界都能使用的資料庫,列管這些有可能代發廣告信的 mail server 。
不過這樣的作法無法防止使用動態 IP 寄發的廣告信,動輒擋掉大型 ISP 的 mail server 如 msa.hinet.net 也過於武斷,所以這種方式漸漸退居防護惡意攻擊的角色,而不再是防堵廣告信的主力。
除了來源 IP 以外,使用者也可以自行建立黑名單和白名單,自動過濾或 bypass 這些名單中的 Email 。
以信的型態來判斷
正常的 E-mail 會有一些所謂 " 正常" 的格式,這些格式是郵件軟體造成的。舉例而言,一般正常的信件大多在收件者欄位 (To) 或是副本收件者欄位 (Cc) 會有收信者的 Email Address ,然而廣告信寄信程式為了效率考量,大多不會把每一封信的 To 欄位都改成不同的 Email Address ,如果我們利用這個特性,就可以阻擋許多廣告信;不過相對的,也有可能把秘件副本 (Bcc) 的信件濾掉。
另外,一般用郵件軟體寄送的 HTML 版本的信件,還會包含一個純文字版的信件內容,以避免收件者沒辦法閱讀 HTML 格式信件時發生問題。但許多廣告信軟體都沒有附上對應的純文字部份,如果我們收到一封這樣的信,它就有很高的可能性是由廣告信軟體寄出的;不過,這種特徵也常常出現在以程式自動寄發的信件中,例如會員通知信等,所以也有誤判的風險。
當我們收集到越來越多這種特徵,就可以把它們發生的狀況加以組合,用來判斷這是廣告信的可能性。
以信件的內容來判斷
利用信件的內容有兩種作法,一種是以文字分佈為基礎的,是以內容單字的分佈作為線索;另一種是關鍵字為基礎的,以特定關鍵字出現的強度作為判斷標準。
第一種作法是利用廣告信大多會重覆寄給多個使用者的特性。當一封信寄進來時,系統會記錄它的 md5 checksum ,由於 md5 演算法可以替不同的內容取得不同的特徵值,如果有大量相同特徵值的信件內容湧進來,系統就會認定這很有可能是廣告信。不過,現今部份廣告信發送軟體會在標題或是內文中加入一些無意義的短句,讓每封信都不一樣,這樣 md 5 c hecksum 的運算結果也就不一樣。因此,有一些系統會先試着只取出一部份內容來計算,以避免被那些刻意外加的文字混淆。
另一種方式則是利用關鍵字來作為判斷基礎。廣告信中可能包含某些我們一眼就可以看出來不感興趣的內容,這可以從大多數的廣告信只需要看標題就可以決定是否要刪除看出來。如果我們設定一些關鍵字,並配合語意推理引擎,就可以過濾掉一些比較常見的廣告信。不過某些廣告信程式會在這些文字之中加入無意義的分隔,例如,把 Viagra 寫成 V~i~a~g~r~a ,所以必須要先經過前處理才能夠更為準確的找出隱藏的關鍵字。
以使用者行為來判斷
如果使用者只花一點時間就看完一封信,很快就按下刪除,那麼它很有可能是一封廣告信;如果這樣的行為產生在幾百個使用者身上,那麼和它相同的 E-mail 就可以直接當作廣告信了。又或是,如果使用者看完就轉寄,那它就比較不可能是廣告信。
可行方式
由上述的概論可以看出, Email 中可以用來判斷是否為廣告信的資訊或特徵非常多,但同時也沒有一種可以保證準確無誤。所以不同的特徵彼此組合起來,才能夠提高準確度。而運用不同的 Data Mining 作法,也有不同的效果。
因為判斷廣告信是依據某些特徵決定信件是否為廣告信,所以這個問題本身是個分類問題,以下依據幾個 Classification 的方式各介紹可行的作法。
Naïve Baysian Classification
我們先收集廣告信和正常信件的樣本,針對每一個欄位都進行統計,計算個別特徵與廣告信與否的機率,接下來,當收到一封新的樣本時,我們先把它的每一個特徵取出來,再查這個特徵是廣告信的機率有多高,把每一個特徵的機率相乘起來。最後再比較是廣告信的機率或是一般信件的機率高。
表 8 列出了幾個特徵與廣告信與否的的機率,由於每個欄位都是獨立的,而且只有兩種可能,所以各欄位機率相加都是 100% 。
| 各種特徵與廣告信與否的機率 | ||||||
|---|---|---|---|---|---|---|
|
標題未正確編碼 |
標題正確 |
未知的 |
已知的 |
HTML 信件無 Alternative Part |
HTML 信件有 Alternative Part |
|
|
廣告信的機率 |
80% |
40% |
55% |
10% |
85% |
45% |
|
正常信的機率 |
20% |
60% |
45% |
90% |
15% |
55% |
下表格是一封新收到的信,我們要判斷它是否為廣告信。擷取出來的特徵有三個:標題正確編碼、未知的寄件者、 HTML 信件無 Alternative Part ,計算之後得到的結果如表 3 所示,這封信是廣告信的機率遠大於正常信的機率,所以我們可以判斷它是廣告信。
| 待判斷的信件及判斷結果 | |||||
|---|---|---|---|---|---|
|
標題正確編碼 |
未知的寄件者 |
HTML 信件無 Alternative Part |
相乘後的機率 |
正規化的機率 |
|
|
廣告信的機率 |
40% |
55% |
85% |
18.7% |
82.2% |
|
正常信的機率 |
60% |
45% |
15% |
4.05% |
17.8% |
Decision Tree
我們也可以利用 Entropy-based 的方式來建立 Spam 的 Decision Tree 。在訓練階段,我們先計算每一個欄位的 Information Gain ,為了避免 Overfitting ,所以我們採用 Gain Ratio 來當作判斷依據,以 Gain Ratio 最大的當作 Root 並依序分類,建立 Subtree ,直到每一個 Leaf Node 都是 Pure 為止。
在判斷階段,我們依照信件的特徵在 Decision Tree 上 Traverse ,直到 Leaf Node ,即可知道是否為廣告信。
Instance-Based Learning
K-Nearest Neighbor 的技巧雖然沒辦法直接套用在 E-mail 上面,原因是要比較的信件太多了,所以幾乎不太可能採用 Lazy evaluation 的方式。不過如果我們把信件當成以文字 span 而成的空間,那麼每一封信都可以在這個 Text domain 找到一個對應的點,而我們可以收集一些屬於廣告信常出現的字眼,這些點就形成了 Spam 的 keyword instances 。我們可以運用這些 keyword instances 計算距離。距離的計算方式是利用文字相差幾個字元。如果一封信的內容包含許多個 spam keyword ,而且距離又不遠 ( 代表可能是該字的變形,如 viagra 改成 v~i~a~g~r~a) ,加總起來的結果若超過臨界值,那就認定它是廣告信。這種作法雖然不是傳統的 Instance-based ,但仍類似 Instance-based 的精神。
QK 咖啡
ijliao 說了他去 QK 咖啡的經驗,我也來分享一下我上週去的經驗好了。
上週一為了某些緣故要先去好幾個地方,偏偏在每一個地方都大約有兩到三小時的空檔,第二天又要期末考,當然是抱著電腦和課本到處跑。已經灌了兩杯黑咖啡的我,為了我的荷包著想,最後決定去 QK 咖啡和平店。這家店除了能上網外,飲料也不貴。
進去前當然照慣例先問問有沒有插頭可以用了,沒想到以它的價位(最便宜的熱 Queen Coffee 35 元/杯),竟然還在每個位置旁邊都有安排插座,實在是沒什麼好考慮的了,衝啊!
音樂就沒什麼好說的了,反正我一向都自備耳機的。比較好玩的是黑咖啡(Queen Coffee),他們的黑咖啡同樣是先沖一杯 Expresso,然後再加熱水。什麼?有比較好喝嗎?你是來上網的耶,喝完不拉肚子就算不錯了啦!太衝動了,比較正確的說法是,我花了兩個多小時啜飲一杯提神醒腦的黑咖啡,對準備考試實在有妙不可言的功效!XD
不過旁邊的吸煙區根本沒有隔起來,所以煙味就一直飄出來;另外,也許是因為價格太划算了,旁邊有一桌坐滿十個人全都拿著 notebook 在苦幹實幹,可能他們公司位置不太夠,就來這邊辦公吧….。
Anyway,我覺得是個比其他網咖和咖網(註)划算許多的地方啦,對不喝咖啡的人也是個好地方喔。
註: 網咖指的是已經坊間上網的店,但其實已經大多沒賣咖啡了的地方;咖網指的是本業還是賣咖啡,但提供網路的店。
台北市捷運沿線無線上網開跑
來自 CNet 的消息:
WiFly服務首站將在台北市捷運沿線站台開始啟用,第一期工程預計在28個捷運站及其周邊150公尺商圈提供無線寬頻上網,以及VoWLAN網內互打完全免費等服務。即日起到1月底,台北市民眾只要上網登錄(www.wifly.com.tw),取得帳號和密碼後就可以免費使用。
另外,預計的收費方式也很有趣,一次收八年半? :p
從現在到1月底以前,台北市無線寬頻網路免費試用。從2月開始有三種計價方式:94年1月底前線上註冊加入會員,至102年8月底11,999元。 94年2月到95年底前申辦,至102年8月底14,999元。以及1個月399元的專案。安源資訊表示,未來還會推出其他更有彈性的計價方式。
筆記電腦散熱影響生育力
來自 CNet 的消息: 《研究:筆記電腦散熱影響生育力》 :
他說,這項以20幾位年齡21歲到35歲男子作實驗對象的報告發現,為了把筆記型電腦平放在膝上而採取坐姿,可能造成陰囊溫度升高多達攝氏2.1度。筆記型電腦本身釋出的熱則可能再讓溫度升高0.7度,使得溫度總計升高2.8度。
害我還蠻想把 Laptop 翻譯成 "LP 燙" 的….XD 各位男性記得不要把 laptop 擺在不該擺的位置呀 XD
奇摩知識
來自 Schee 的消息:奇摩知識 tw.knowledge.yahoo.com,看起來像個挺大的 Ask 板。
Dopod 700 雙網手機
週六由長輩那邊拿到一支 Dopod 700 來研究,老實說,還蠻大支的。重量還好算是可以接受,螢幕也很漂亮,與其說是一台手機,倒不如說是內建 Wi-Fi 和 GSM 的 PDA。試用了一下 skype 的通話品質,蠻不錯的,不過還不能直接用免持耳機調整音量,也不確定 roaming 會不會有問題;但偶爾會有一兩秒的訊號不穩定,那段時間的聲音就會很小聲。用電量的部份,實際充飽應該是可以使用三天左右吧(以接電話而非 PDA 使用)。以下列了一些我拍的照片還相關的 review。
https://pesty.yichi.org/gallery/Dopod
![]()
雙網手機與 Skype
雙網手機上市的消息在圈子內似乎傳播得很快。雙網(GSM、Wi-Fi)手機本身雖然不是什麼新觀念,但是令人訝異的是竟然一開始就把 Skype 建進去了,網路電話重創傳統電話市場的時代應該也不遠了。
比較值得觀察的是其他手機製造廠商和電信公司的態度。如果他們打算暫不跟進,那麼各位看倌趕快去 implement 一個可以在 JVM 上面跑的 skype 吧,趁廠商還在顢頇時撈一把也不錯。
另外一個影響比較大的應該是簡訊市場;透過 Wi-Fi 傳送即時訊息應該漸漸會把簡訊的市場給侵蝕掉。過去網管人員常利用的簡訊通知或許也該考慮轉換成採用即時傳訊軟體來通知了?
不過,回過頭來說,雙網手機有沒有解決我當初在《Revolution on Mobile Computing》中提到的收費問題呢?這些還是在未知之數。
相關資料:
CNet: 首支雙網手機上市
中國時報: 通話費最省 雙網Skype手機問世
聯合報: 無線雙網手機 GPRS Wi-Fi通吃
gslin's blog: Skype & GSM
Gmail Notifier
申請了 Gmail 之後,許多人應該都覺得每天要上 Web 介面檢查有沒有信很煩吧!現在網路上有很多可以把 Gmail 轉成利用 POP3 E-mail client 來收信的軟體都做得不錯,不過我覺得根本上 Gmail 就是因為能夠不顧慮到容量把信都放在它裡面才有價值,所以覺得把信收回來有一點走回頭路。
現實上還是要解決不能常收信的情形,找了一下發現有個 Gmail 團隊釋出的 Gmail Notifier 可用。這個程式會自動檢查你的 Gmail 帳號是否有新的信件,也可以讓你點選 "mailto:" 的超連結時,自動利用 Gmail 寄出,蠻方便的。希望將來支援多個 Gmail account 的功能呀 :p
至於能夠把信收回 Mail Client 的軟體,可以參考 Mark 推薦的《好用的 Gmail 工具》一文。