程式碼高𠅙

2008/07/09

使用 Google Trends, 你有進行基值/基期校正嗎?

因為在 iThome 看到一位與我有一面之緣、熱衷 Flex 的高手,透過分析 Google Trends 資料,寫了一篇名為「RIA四雄群起:以Google Trends評析現有RIA四大技術(Flex、Silverlight、JavaFX、Curl)」的 blog。由於其中各種技術熱門程度的差異實在太大,激起了我進一步自行探索的動力。

第一件使我產生懷疑的是,文中指出 Flex 技術是 2004 年發行 1.0 版,我到 Wikipedia 查了一下資料,是 2004 年 3 月。那時候 Flex 還是 Macromedia 所提出的一個 Server 端方案,需配合貴死人的 Server 端執行。而由圖一可以明顯看出,Flex 的趨勢線在 2004 年初就一直處於高檔,直覺跟…好吧--年紀--告訴我這不合理。

ria-3

圖一:未經校正的 Google Trends 查詢:Flex, Silverlight, JavaFX, Curl

而第二件讓我覺得更不合理的是,如果你直接透過 Google 查詢 Curl,可以發現十之八九都與 RIA 無關。這樣的查詢流量怎能將它全部歸到 Curl for RIA 這一塊呢。

我相信 Flex 這將近 0.9 的 Search Volumn Index,並非指 Macromedia/Adobe 的 Flex 技術;同樣的,Curl 大多的查詢流量也與 RIA 無關。為了進行檢驗,我將查詢語句作了一些修正,以期找出較具代表性的指標。新的查詢為:Macromedia Flex, Microsoft Silverlight, Sun JavaFX, Adobe Flex。

ria-4

圖二:經過校正的 Google Trends 查詢:Macromedia Flex, Microsoft Silverlight, Sun JavaFX, Adobe Flex

這個查詢中,Flex 的熱門程度可用 Macromedia Flex + Adobe Flex 來代表。基本上可看出,在 2004 年 3 月以前,少有人關注 Flex。而 Microsoft Silverlight 的聲勢,"有段時間" 其實並不小於 Macromedia/Adobe Flex,那 Sun 的 JavaFX,就趴在地上了。

不過,究竟一般網民在查詢時,並不會特別以 Adobe Flex、Microsoft Silverlight 這樣的組字方式去下。以上,我所要說明的是,在以 Google Trends 進行分析時,得對基期或基值進行校正。透過第二個查詢我們已經證明 2004 年 3 月前的 Flex 流量,不能算是 Flex for RIA 這一塊的流量。如果將圖一 Flex 的流量值向下平移 0.9 單位,可以看出 Flex 對 Silverlight 的比值將接近圖二所示。

行文至此,是不是可以建議 Google Trends 提供類似基期/基值校正的功能。不然,就趕快把 Google Treands 的 API 給 release 出來吧!

相關連結:

Technorati : , , , ,

3 則留言:

Unknown 提到...
作者已經移除這則留言。
Unknown 提到...

高手不敢當,有跟你一面之緣嗎?沒再見過就不得而知了。
以下是針對你的回覆。

問題一:RIA一詞由2002年3月 macromedia公司提出,正式版是2004年推出Flex 1.0,但更早2004年前Flex在Beta版就己於網頁問世,其間macromedia也早己定位這是RIA的伺服軟體,Wiki並沒有寫到(這就回歸一個問題,只要你有憑有據,也自認寫得對,不怕人挑戰,每個人都可以在Wiki上編輯,但Wiki也不能說絕對百分百沒問題,全部有寫到,因少了良好的審核制度)。

所以此提不合理,個人依歷史與經驗認為是未必。當然你也可以同時跟Adobe查證是否屬實。

問題二:你說的沒錯,Curl有些並不是跟RIA無關,但也不是所謂的十之八九,相信你用Google搜尋curl單字也有看到,主要是command line tools與curl公司介紹RIA。雖還不能確保百分百curl是RIA,後面也用其他搜尋引擎來搜尋,做交互比對,最後加上後面我有說明,"只是綜合客觀參考,畢竟不是所有關鍵字一定與產品技術有關"。數字最後是一個綜合參考,但我希望寫出來面向,主要觀念與對錯不能誤人子弟。

很高興你的提出,另外,其實我的原文章在此RiS社群http://forum.j2eemx.com/showthread.php?t=1929
iThome是我樂意提供於此文章。

所以若還有任何問題歡迎來http://forum.j2eemx.com指教,Thanks.

P.S:最後一點,我想一般人搜尋大部分會直接打Silverlight或Flex,其次搜尋才會去想到輸入Microsoft silverlight或Adobe Flex,可以試問其他人,因為要當作不知道是哪家公司做的。

My Blog 提到...

bing 你好,你的反應真是迅速啊! 也辛苦你了。因為本篇文章 dual post,結果你也 dual(甚至 triple) comment.

其實我想強調的,僅是你原文圖一中,Flex 趨勢線相較於其他 RIA 方案驚人的高度。你可以看到,打從 2004 年一開始,Flex 的高度就比今日的 silvelight 還高。因此這高度究竟有多少百分比,可以算是 Flex for RIA 這一塊的實際查詢量,是值得探討。

再從圖一中 A, B 事件來看的內容來看,一個是 i-Flex,一個是 Flex-Fuel Car,也都跟 Flex for RIA 無關,顯示真正在 2007 年以前,Google 趨勢認為的 Flex 事件並不一定指 Flex for RIA 這一塊。

Flex for RIA 真正在市場上熱起來,反而是因為在 2007 年初,MS 推出 Silverlight、而 Adobe open source Flex 以對那時起。

你也有說"只是綜合客觀參考,畢竟不是所有關鍵字一定與產品技術有關",但我個人認為光只是這樣說明,仍無法讓讀者注意到,若將圖一中的 Flex 查詢量視為 Flex for RIA 這一塊,將造成多大的資訊偏差。實際上,我評論的,不在於你的文章內容,而在於那張圖的資訊含意。

如果我們換用不同的查詢方式,可以得到的結果就會非常不同,例如:http://trends.google.com/websites?q=flex.org,+silverlight.net&sa=N 所呈現的,分別是Google 所偵測到的 flex.org, silverlight.net 造訪量。這裡可看出的是每個網站的造訪量。這樣的資訊,就 "單一" 網站言,相信是比關鍵字查詢所代表的資訊更為精確的!

而如果我們換用一個搜尋引擎,以 clusty 查詢 curl (http://clusty.com/search?input-form=clusty-simple&v%3Asources=webplus&query=curl),則可看出在資訊提供者的角度,curl 在網際網路資訊上所占的結構。雖不是用戶端觀點,但至少可供探索當人們談及 curl 時,可能涉及的主題包含哪些。

總結我的評論,仍然不是針對你的文章,而在強調透過 Google Trends 時,如何避免將資訊還原,避免看圖說故事,卻被圖形所誤。