Author Archives: Pesty

差點以為是新華社的社論

在中時的社論《正確解讀分析 不必反應過度》針對中國反分裂國家法的 "解讀",讓人看了還以為是新華社的社論 — 太體貼了。

先解讀這十一條吧。前三條是有關兩岸問題的定義。它定位台灣問題是「內戰的遺留」,「解決台灣問題是中國內部事務」。而「一個中國」指的也並非中華人民共和國,而是更廣義的包含兩岸中國人的「中國」。這一部分的爭議不大,中華民國本來就統治中國大陸,只因蔣介石發動內戰,敗戰才撤退來台,形成分裂局面。現在台灣仍叫中華民國,歷史自然存在。

兩岸問題如果真的能在一中架構下解決,那早就已經復談了吧。問題是,中國當局的 "一個中國"原則叫做 "世界上只有一個中國,而且是中華人民共和國",沒有任何證據顯示反分裂法有理由與原本的原則不同,請問中時的社論是從哪裡看出來這個中國包括了 R.O.C.?

第四、五條強調其和平原則,然而它有另一個為台灣朝野所忽略的非常重要的伏筆:「國家和平統一後,台灣可以實行不同於大陸的制度,高度自治」。以前中共的提法,是「和平統一,一國兩制」。現在,中共等於無形中放棄「一國兩制」,而改為「高度自治」。這是政策上的放寬,一個新政策的重要指標。中共官方不願意多提,可能是想為前任保留一點面子,但它的進步是可以確定的。這應可視為胡錦濤對台政策的善意顯現。

妳嫁給我之後保證我會給妳豐衣足食、衣食無缺,以前我只保證給妳一台賓士還有五百萬珠寶,現在這樣很明顯的是一種進步。

第六條是對兩岸交流的政策,胡錦濤是以此宣示全面開放交流的誠意。第七條比較有新意,它說出了中共對談判的態度,即「平等協商和談判」,至於談什麼內容,則明白說出「台灣國際地位」、「台灣當局的政治地位」等。這等於是說台灣如果有意加入國際組織,可以兩岸先協商,台灣可以有代表參加。這是鄧小平時代曾有過的政策提議,後來因兩岸緊張,而被鷹派阻止了。現在重提,顯示了胡的有意突破。

是”統一之後的國際地位”、”統一之後台灣當局的政治地位”,簡而言之就是,反正不統一就什麼都不能談。

至於最讓民進黨緊張的非和平反台獨三條文,內容與以往反台獨的條件並無不同。相較於以往有所謂「外國勢力干涉」、「台灣社會動亂」等說法的強悍,這一次的三條件顯得相當低調。只說「以任何名義、任何方式造成台灣從中國分裂出去的事實」、「或者發生將會導致台灣從中國分裂出去的重大事變」、「或者和平統一的條件完全喪失」。當然三條件都相當模糊,中共有其解釋空間。但要將此條文變成「武力攻台的空白支票」,也未免太不了解台海情勢了。台海情勢戰與和、獨與統的關鍵,恐怕與美國有更大關係。並且更大的關鍵,取決於中共實力(經濟、外交、軍事等)與美國的對比。誰強,確有能力拿走。以為中共的一個國內法,就可以決定台灣前途,那未免太不現實了。

這段最帥了;學過邏輯的,應該都知道”任何”這個字要大於列舉的事實,中時社論竟然有辦法說這種法律叫做 “顯得相當低調”? 依據這個法令,如果我將來會生一個兒子反統,他們就可以派阿諾從未來到現在來幹掉我了,因為這是 “「以任何名義、任何方式造成台灣從中國分裂出去的事實」,而且更妙的就是,甚至於中國當局自己喪失和平統一的主觀條件時(例如,鴿派人士全部失勢….orz…),都可以套用 「和平統一的條件完全喪失」來完成統一,這不是很莫名其妙嗎?

就算民進黨政府刻意在此件事上訴諸民意,但中時的說辭顯然刻意略去中國制訂的反分裂法之不合理之處,實在無法理解其作為一個”正確解讀分析”的立場何在。

淺談廣告信與 Data Mining

本文是期末報告作業,寫得不好請海涵。Gslin 在 newzilla 雜誌也寫了一系列關於 AntiSpam 的主題,有興趣探討其他相關內容的可以一併參考。

每一封 E-mail 都有兩個主要的部份: header 和 body 。 Header 的部份包括了信件的來源、時間、郵件主旨、編碼、經由哪些伺服氣遞送、以及最初的寄送者 IP 等等; body 的部份則是文件的內文和附檔等等。如果再進一步細分,在 header 的部份還包括了 RFC 規定的 header 、和 X- 開頭的自訂欄位,如表。

標準 E-mail 信件的範例

標準 header

From return@trafficmagnet.net Wed Jul 24 22:22:59 2002
Return-Path:
Delivered-To: pest@pest.yichi.org
Received: from ns5.trafficmagnet.net (unknown [211.157.101.52])
by pest.yichi.org (Postfix) with ESMTP id A0E08267
for ; Wed, 24 Jul 2002 22:22:57 +0800 (CST)
Received: from 181-Dispatcher ([211.101.236.181])
by ns5.trafficmagnet.net ( 8.11.6 /8.11.6) with SMTP id g6P3J4t04996
for ; Wed, 24 Jul 2002 22:19:05 -0500
Message-Id: <200207250319.g6P3J4t04996@ns5.trafficmagnet.net>
From: Christine Hall
To: "pest@pest.yichi.org"
Subject: AI.YICHI.ORG
Date: Wed, 24 Jul 2002 22:32:01 +0800
MIME-Version: 1.0
Content-Type: multipart/related; boundary="e 88c 5b17 -309f -43a 4-adee-95e2ee9437cc"
Content-Transfer-Encoding: quoted-printable
Reply-To: Christine Hall
Status: RO

Optional header

X-Mailer: CSMTPConnection v2.17
X-Keywords:
X-UID: 1385

目前來說,判斷 spam mail 大略有幾種方式:

• 以來源來判斷

• 以信件的型態來判斷

• 以信件的內容來判斷

• 以使用者行為來判斷

上述四種方式分述如下。

以來源判斷

我們假設寄廣告信的人經常使用特定幾個 IP Address ,所以如果我們可以把這些不當使用者的來源都建立成一個資料庫,那麼 mail server 在收信前,只要先檢查信件是否來自這幾個特定的 IP ,就可以過濾掉一些常發廣告信的來源。不過,由於 E-mail 也有 relay 的機制,因此單單過濾最初發信的來源仍然不夠,還需要把一些 open-relay 的 mail server 也列管,原因是這些 open-relay 的 mail server 很有可能會轉送廣告信給我們,使得這樣的防護方式產生漏洞。所謂的 RBL(Relay Black List) 就是這樣的列管名單,透過全世界 E-mail 系統管理者的共同努力,提供全世界都能使用的資料庫,列管這些有可能代發廣告信的 mail server 。

不過這樣的作法無法防止使用動態 IP 寄發的廣告信,動輒擋掉大型 ISP 的 mail server 如 msa.hinet.net 也過於武斷,所以這種方式漸漸退居防護惡意攻擊的角色,而不再是防堵廣告信的主力。

除了來源 IP 以外,使用者也可以自行建立黑名單和白名單,自動過濾或 bypass 這些名單中的 Email 。

以信的型態來判斷

正常的 E-mail 會有一些所謂 " 正常" 的格式,這些格式是郵件軟體造成的。舉例而言,一般正常的信件大多在收件者欄位 (To) 或是副本收件者欄位 (Cc) 會有收信者的 Email Address ,然而廣告信寄信程式為了效率考量,大多不會把每一封信的 To 欄位都改成不同的 Email Address ,如果我們利用這個特性,就可以阻擋許多廣告信;不過相對的,也有可能把秘件副本 (Bcc) 的信件濾掉。

另外,一般用郵件軟體寄送的 HTML 版本的信件,還會包含一個純文字版的信件內容,以避免收件者沒辦法閱讀 HTML 格式信件時發生問題。但許多廣告信軟體都沒有附上對應的純文字部份,如果我們收到一封這樣的信,它就有很高的可能性是由廣告信軟體寄出的;不過,這種特徵也常常出現在以程式自動寄發的信件中,例如會員通知信等,所以也有誤判的風險。

當我們收集到越來越多這種特徵,就可以把它們發生的狀況加以組合,用來判斷這是廣告信的可能性。

以信件的內容來判斷

利用信件的內容有兩種作法,一種是以文字分佈為基礎的,是以內容單字的分佈作為線索;另一種是關鍵字為基礎的,以特定關鍵字出現的強度作為判斷標準。

第一種作法是利用廣告信大多會重覆寄給多個使用者的特性。當一封信寄進來時,系統會記錄它的 md5 checksum ,由於 md5 演算法可以替不同的內容取得不同的特徵值,如果有大量相同特徵值的信件內容湧進來,系統就會認定這很有可能是廣告信。不過,現今部份廣告信發送軟體會在標題或是內文中加入一些無意義的短句,讓每封信都不一樣,這樣 md 5 c hecksum 的運算結果也就不一樣。因此,有一些系統會先試着只取出一部份內容來計算,以避免被那些刻意外加的文字混淆。

另一種方式則是利用關鍵字來作為判斷基礎。廣告信中可能包含某些我們一眼就可以看出來不感興趣的內容,這可以從大多數的廣告信只需要看標題就可以決定是否要刪除看出來。如果我們設定一些關鍵字,並配合語意推理引擎,就可以過濾掉一些比較常見的廣告信。不過某些廣告信程式會在這些文字之中加入無意義的分隔,例如,把 Viagra 寫成 V~i~a~g~r~a ,所以必須要先經過前處理才能夠更為準確的找出隱藏的關鍵字。

以使用者行為來判斷

如果使用者只花一點時間就看完一封信,很快就按下刪除,那麼它很有可能是一封廣告信;如果這樣的行為產生在幾百個使用者身上,那麼和它相同的 E-mail 就可以直接當作廣告信了。又或是,如果使用者看完就轉寄,那它就比較不可能是廣告信。

可行方式

由上述的概論可以看出, Email 中可以用來判斷是否為廣告信的資訊或特徵非常多,但同時也沒有一種可以保證準確無誤。所以不同的特徵彼此組合起來,才能夠提高準確度。而運用不同的 Data Mining 作法,也有不同的效果。

因為判斷廣告信是依據某些特徵決定信件是否為廣告信,所以這個問題本身是個分類問題,以下依據幾個 Classification 的方式各介紹可行的作法。

Naïve Baysian Classification

我們先收集廣告信和正常信件的樣本,針對每一個欄位都進行統計,計算個別特徵與廣告信與否的機率,接下來,當收到一封新的樣本時,我們先把它的每一個特徵取出來,再查這個特徵是廣告信的機率有多高,把每一個特徵的機率相乘起來。最後再比較是廣告信的機率或是一般信件的機率高。

表 8 列出了幾個特徵與廣告信與否的的機率,由於每個欄位都是獨立的,而且只有兩種可能,所以各欄位機率相加都是 100% 。

各種特徵與廣告信與否的機率

標題未正確編碼

標題正確
編碼

未知的
寄件者

已知的
寄件者

HTML 信件無 Alternative Part

HTML 信件有 Alternative Part

廣告信的機率

80%

40%

55%

10%

85%

45%

正常信的機率

20%

60%

45%

90%

15%

55%

下表格是一封新收到的信,我們要判斷它是否為廣告信。擷取出來的特徵有三個:標題正確編碼、未知的寄件者、 HTML 信件無 Alternative Part ,計算之後得到的結果如表 3 所示,這封信是廣告信的機率遠大於正常信的機率,所以我們可以判斷它是廣告信。

待判斷的信件及判斷結果

標題正確編碼

未知的寄件者

HTML 信件無 Alternative Part

相乘後的機率

正規化的機率

廣告信的機率

40%

55%

85%

18.7%

82.2%

正常信的機率

60%

45%

15%

4.05%

17.8%

Decision Tree

我們也可以利用 Entropy-based 的方式來建立 Spam 的 Decision Tree 。在訓練階段,我們先計算每一個欄位的 Information Gain ,為了避免 Overfitting ,所以我們採用 Gain Ratio 來當作判斷依據,以 Gain Ratio 最大的當作 Root 並依序分類,建立 Subtree ,直到每一個 Leaf Node 都是 Pure 為止。

在判斷階段,我們依照信件的特徵在 Decision Tree 上 Traverse ,直到 Leaf Node ,即可知道是否為廣告信。

Instance-Based Learning

K-Nearest Neighbor 的技巧雖然沒辦法直接套用在 E-mail 上面,原因是要比較的信件太多了,所以幾乎不太可能採用 Lazy evaluation 的方式。不過如果我們把信件當成以文字 span 而成的空間,那麼每一封信都可以在這個 Text domain 找到一個對應的點,而我們可以收集一些屬於廣告信常出現的字眼,這些點就形成了 Spam 的 keyword instances 。我們可以運用這些 keyword instances 計算距離。距離的計算方式是利用文字相差幾個字元。如果一封信的內容包含許多個 spam keyword ,而且距離又不遠 ( 代表可能是該字的變形,如 viagra 改成 v~i~a~g~r~a) ,加總起來的結果若超過臨界值,那就認定它是廣告信。這種作法雖然不是傳統的 Instance-based ,但仍類似 Instance-based 的精神。

十七歲的天空

這….應該算是青春喜劇吧 XD

當花心的大少碰上純情的少男,會迸出什麼樣的火花呢?這部片的角色雖然全部都是同性戀,但很有趣的是這些同性之間擦出的火花,強度卻不比異性戀來得遜色,甚至可以說,連床戲都拍得很讓人血脈噴張。也許愛情這個東西是一個共通的語言,當它存在的時候,角色的性別反而不是一個必要的東西。

覺得這部片好像是很多個小單元串接的,有時候演員會有卡住的感覺,但是導演也用了很多好玩的手法來貫穿全戲,所以整體感覺還不錯,算是看了很開心的一部片。

不過片名既然叫十七歲的天空,有沒有發現其實天空永遠是晴朗的?還有,這部片裡面一個女性(狹義的)也沒有 :p

參考: 《十七歲的天空》官方網站

HTML-FromANSI

剛剛在找可以把 ANSI 顏色碼轉成 HTML attributes 的程式,發現了 autrijusHTML-FromANSI perl module,上來推一下好了。 XD

這東西對要把 BBS/Mud 相關的東西轉成 Web 化的人真的是很物呀,就省掉一堆處理的時間了。有興趣的去抓來用吧 XD

參考: HTML-FromANSI

[轉載] 如果沒有記者們搞糟的話,台灣會更好! CharlieL @ PTT

2005.03.02 中國時報的社論標題是「如果沒有政客們搞糟的話,台灣會更好。」同一天的頭條新聞,由署名陳洛薇的記者報導「東海大學,劈腿事件喧騰網路」,詳觀其內容,我不禁要說,「如果沒有記者們搞糟的話,台灣會更好!」

個人認為,台灣的記者們有三大問題。這篇文章,正好把三大問題全部點了出來。首先,報導譁眾取寵有餘,深入報導不足。姑且不論劈腿的正當性,恕我請問,一件有關兩男一女私人隱私的事件,為何得以成為中國時報這份台灣發行量數一數二報紙的頭條?在批踢踢BBS站上,人氣上千上萬並非首遭,奧運棒球比賽亦曾在該站棒球版有熱烈討論,卻從未見記者有類似的報導。難道是今日中國時報的編輯加所有的記者都寫不出更好的稿件,才拿這份出來濫芋充數?退一萬步說,就算這份稿件具有新聞性,記者又做了哪些深入的報導?從文章看來,恐怕連訪問當事人都沒有做到,僅靠BBS上流傳的文字,抄了抄就可以拿來報導,事件的真實性僅靠一小段與東海大學校方有關的部份來維持。尤有甚者,第八版的批踢踢小檔案,抄自該站的網路介紹。遺憾的是,不但是抄襲,還不小心漏抄了一段,讓人不知報導中的「兩站」所指為何?這樣的報導品質,我再請問,難道這就是我們大學新聞系教出來的水準嗎?

再來,記者的中文閱讀和寫作能力,都大有問題。閱讀能力方面,在抄襲的文章中,原文作者明白表示「不希望再討論此話題」,編輯和記者都視而不見,在報紙頭條繼續討論,說難聽一點,如果當事人因此而被逼上絕路,不知這位陳姓記者是否要負責?寫作能力方面,抄襲當事人文章也罷,文字內容不加修飾,也不知是沒有能力修飾,還是譁眾取寵的後遺症,總之報導不像報導,小說不像小說,如果這種品質的文字,就是中國時報的頭版頭條,余先生地下有知,恐怕也要大罵吧!

最後,記者的道德及法律素養低落。數日以前,本人才在批踢踢站的法規處理版,才剛看到陳姓記者的案子,他由於不顧該站的使用規定,在各版發表廣告類文章徵稿,遭受到該站的處置。現在,又看到他利用記者的身份,報導一篇如此「狗仔」的文章,什麼時候中國時報已經向這樣的狗仔新聞看齊了?有這樣多的版面,怎麼不拿去報導對我們國家人民更重要的話題,例如,多多分析一下,「台灣走不出困局的理由」?

還是,其實中國時報只敢在社論裡檢討政客,卻不敢檢討自己。台灣走不出困局的理由,就是因為我們把重要的媒體都拿去報這種沒有意義的八卦新聞,而沒有用來維護人民知的權利。社論中說,「朝野的政治領袖們,是不是欠台灣人民一句道歉?」,我也要問,偉大的記者和編輯們,是不是欠台灣人民一句道歉?因為我們真的覺得,「如果沒有記者們搞糟的話,台灣會更好!」

(本文作者為批踢踢實業坊退休站長,惟以上言論不代表該站意見)

請勿刪稿,另本文作者保留著作權及轉載文章權利。

原作為 CharlieL@PTT

表演工作坊七七折劇本及八一折DVD 補充說明

因為有一些朋友來信詢問寄送的問題,所以一併在這邊補充:若是需要郵寄,一律是以掛號寄出,郵資都是 30 元;而款項可以利用匯款的方式。

請先填寫網路訂購單,並寄到 YehChihWei@gmail.com,再通知您匯款金額,完成訂購的手續。

DVD 單部是八五折,買兩部以上就可以用八一折(650)購入喔~

目錄請參考: 《政大戲劇週 :: 表演工作坊劇本及 DVD 大特價

家用網路分享 — V-Gear LanDisk

剛才無意中在逛奇摩拍賣時看到 V-Gear 出的這台 LanDisk,支援 Samba、FTP,還提供 DHCP、Telnet 等功能。日幣報價好像不到九千元,台灣賣三千五左右,看起來會是很好的家用網路磁碟分享設備。

以前曾經想過,未來的家庭是以網路儲存裝置為中心的;透過一個集中式的儲存裝置,所有的檔案、影片、相片等等都可以在上面進行交流,而不需要額外的技術。微軟的 Media Center 雖然也抱持著同樣的看法,但由於他們公司本身的定位問題,要他們放棄 OS 而只提供硬體,是有一點難度,最多也只能利用 XBox 來卡位。當時我覺得 NAS 這種技術應該很快就會走入家庭才對,但比較便宜的 Solution 卻一直沒看到。現在 V-Gear 出的這個價格,應該是很有競爭力了。

V-Gear: LanDisk

如何把 AdSense 和 Commission Junction 進行整合

先前在《blog 上的廣告》這篇提到過 Google AdSense 找不到適當的廣告時,就會顯示公益廣告,這對於 Content Provider 其實蠻討厭的,特別是當公益廣告的數量多到讓人覺得生氣的程度時。

gslin 在這篇文章提到可減少公益廣告的 Tips,但不管怎麼改,有時候就是不會出現廣告。為了這個理由,AdSense 提供了兩個選項,讓 Content Provider 可以選擇在沒有商業廣告可播時,在該區塊只顯示某個顏色,或是顯示另一個 URL 的資料,而我就是利用這個方式來和另一個著名的網路廣告商 Commission Junction 進行整合。

Commission JunctionGoogle Adsense 的運作方式不太一樣:Content Provider 必須自己到系統中尋找想要刊登的廣告,有時候還需要向廣告商(Ad Provider)進行簡單的申請動作,才能夠取得刊登的廣告內容(HTML Code)。為了簡化後續處理的動作,我先建立一個 SmartZone,把大小設定為 468×60,這樣當我找到適合的廣告,就可以直接放入這個區域中。利用 SmartZone 的好處是只需要把 SmartZone 的 HTML Code 加入網頁中一次,之後要把廣告上架或下架都只需要到 Commission Junction 的系統中處理即可。

我先把這個 SmartZone 的 HTML Code 存到 https://pesty.yichi.org/cj468.html ,直接點選就可以看到廣告的內容為何。接下來,我到 Google AdSense 的介面中產生廣告的 HTML Code,並在 "Alternate ad URL or color" 的地方輸入上面的網址,再按 update code,就會產生可以同時顯示兩種廣告的 HTML Code 了,最重要的是多了一行 "google_alternate_ad_url = " 的欄位,當 AdSense 沒有商業廣告可播,就會顯示 Commission Junction 的廣告。

利用同樣的方式理論上也可以做到 BlogRolling;不過我比較想要做像 FaceRolling 的廣告….hmmm….