肝炎，病菌與大數據

　　7月28日是世界肝炎日。關於這一點，相信很多人或許已經從媒體、社交網站和朋友圈得知，比如各種社交渠道流傳的“小心肝兒”的圖片，包含了各種關於肝髒保護和使用的常識和竅門，各種有關肝炎的現狀等等。

　　這些知識包括但不限於：世界每三個慢性肝炎患者裡就有一個在中國；再比如，中國是肝炎嚴重流行區之一，乙肝病毒感染者的人數有1.2億；還有，中國每年有近40萬人死於肝髒疾病；以及，每飲酒一次相當於得一次輕度肝炎，等等。

　　但是這還遠遠不夠。

　　首先，你想跨越國界，來一場說走就走的旅行？根據去年CEVHAP（亞太撲滅病毒性肝炎聯盟）的數據，亞太區每30秒就有一人死於病毒性肝炎，死亡率是艾滋病的3倍，而從1990年到現在，亞太區死於病毒性肝炎的人數已經從每年70萬人增長到100萬人。

　　其次，你不進行國際旅行，但你像這個國家裡一半人那樣，住在城市裡。賈雷德·戴蒙德在《槍炮、病菌與鋼鐵》中說的，很多群眾性傳染疾病只有在積聚起足夠多的人口才可能發生，很多我們熟知的傳染病出現的時間都出奇地晚，它們都源自大規模的城鎮化。你總知道中國的城鎮化將是最近數十年這個星球最大的奇觀吧？

　　對於病毒性肝炎，乃至其他一系列的傳染病來說，那些小貼士有用，但是不足夠有用。非常年代，你需要在過去的經驗中非常陌生、但未來會對你非常有用的工具：大數據。

　　為何要在肝炎日談大數據？

　　上面已經說過，世衛組織從2011年起設立世界肝炎日，絕非只因為這天是空閒的。人們並不重視肝炎，一方面是由於肝炎並不像其他一些病毒那樣致命和傳播快速、普遍，另一方面則是由於肝炎具備一些特征，例如只有部分疫苗，以及非季節性和非飛沫傳播等，使其並不那麼容易預防。

　　但是你應該比之前更重視它，因為第一它是很嚴重的傳染疾病，其二是因為我們現在有了更好的工具：大數據。相信我，紅極一時的《大數據時代——生活、工作與思維的大變革》一書，就是源於谷歌使用大數據對2009年甲型H1N1流感的成功預測。作者在引言中說，“這是當今社會所獨有的一種新型能力，以一種前所未有的方式，通過對海量數據進行分析，獲得有巨大價值的產品和服務，或深刻的洞見”。

　　具體到肝炎，盡管從百年前發現肝炎病毒和部分疫苗以來，人類在醫學上的進展屈指可數，但除了打疫苗和切斷傳播途徑、遠離易感人群，其實還有另外一種積極的預防方法——那就是上述“深刻的洞見”，養成使用大數據分析工具的習慣，經常性地了解所在地或目的地的流行病情況，盡可能地遠離高危的傳染源發地。

　　目前可供個人使用的大數據工具主要有兩類，一類是來自醫學監測機構的大數據，類似中國的疾控中心，美國的Carolinas Health Care，日本京都大學荒牧研究所等，以來自就診患者統計為主，輔以大數據分析手段，以顯示某地區目前流行病的發病情況為主，預測疾病流行走向為輔；另一類則來自搜索引擎和數據分析機構，包括google trends的疾病預測，百度預測6月上線的疾病預測，以及基於社交搜索的sickwether、patientslikeme和融合性的Healthmap等，以預測疾病流行走向為主，展示區域發病情況為輔。

　　兩種數據工具的手段大同小異，區別只在於前者提供的數據多是針對大區域的、服務機構的數據需要，後者則多針對小區域甚至某個城市商圈，為個人消費者服務。考慮到中國人的具體需求，這裡我們主要介紹針對國外旅行的google預測，和針對國內的百度預測。

肝炎，病菌與大數據

　　Google預測：曾經很准，現在不好說

　　谷歌流感預測（www.google.org/flutrends）早在2008年即已推出，原理是采用流感趨勢系統監測全美的網絡搜索，尋找與流感相關的詞語，比如“咳嗽”和“發燒”等，並利用這些搜索結果來提前9個星期預測可能與流感相關的就醫量。

　　2009年在H1N1爆發幾周前，谷歌公司的工程師們在《Nature》上發表了一篇論文，介紹了GFT，成功預測了H1N1在全美范圍的傳播，甚至具體到特定的地區和州，而且判斷非常及時，令公共衛生官員們和計算機科學家們倍感震驚。

　　這個工具最初運行表現很好，許多國家的研究人員已經證實，其流感樣疾病（influenza-like illness， ILI）的估計是准確的，並且可以提前數周乃至數月，不像疾控中心一樣要在流感爆發一兩周之後才可以做到。

　　但此後的2013年，《新科學家》發現，在過去3年，該系統一直高估與流感相關的就醫量，在這類數據最有用的流感季節高峰期尤其預測不准確。在2012/2013流感季節，它預測的就醫量是美國疾控中心（CDC）最終記錄結果的兩倍；在2011/2012流感季節，它高估了逾50%。

　　《scientists》雜志認為錯誤源自一種被稱作大數據浮誇（Big Data Hubris）的算法變化，例如對模型的人工優化，或是模型對某些不當關鍵詞的自動調整（例如某些搜索其實源於季節而非真實發病），google對此也做出了一些調整，但效果仍待評估。

　　百度預測：新鮮上線，期待閃光

　　百度的疾病預測（http：//trends.baidu.com/disease/）於今年6月上線，目前可以對全國331個地級市，2870個區縣的四種疾病進行未來趨勢的預測，某些城市甚至已經細化到具體的商圈。目前該產品提供流感、肝炎、肺結核和性病四種疾病的活躍度、流行指數，以及各種疾病相關的城市和醫院排行榜，用戶可以查看過去30天以內的數據和未來7天的預測趨勢。而且百度還在疾病預測的頁面上，整合了百度旗下其他優勢產品資源，比如在頁面右下角提供了百度百科和百度健康的鏈接，用戶點擊過去就可以了解到有關當前頁面疾病的各種相關知識。

　　因為上線時間較短，百度預測的效果還很難評估，但考慮到比google預測上線較晚，加入了一些最新的技術成果和數據采集結果，這款產品在技術上應該是靠譜的。

　　例如，從公開資料來看，該產品模型的搭建一是通過歷史數據構建統計規律性，比如流感或者手足口等疾病具有季節性周期的規律，二是通過研究疾病人數與其它相關數據的相關性來計算預測結果，同時從統計的角度來驗證數據的正確性，以機器提供的數據為基礎，加入對異常數據的監控和分析。

　　而為了讓預測的准確率更高，百度還做了另外兩方面的努力。其一是在數據合作上，不僅引入權威機構的相關數據而且保持同步更新，這其中不僅包含數據互通，同時也會與合作方的專家進行產品交流。

　　另一點不同在於，百度預測引入社交、天氣、人群遷徙等搜索之外的數據，在搜索數據上，google的query數據依賴於Google Correlation產品，而百度則是直接從原始日志中進行清洗、消岐、擴展和分析，相對來說，理論上更容易避免“春天感冒怎麼辦”這樣的查詢影響結果。此外，百度的地理劃分可以細化到城市商圈，可以查詢的疾病也比google多。有鑒於此，我們有理由給予其更多的期待。

　　結語：無論如何，應該試試

　　從此前世界杯預測的結果來看，百度擁有比google更靈活的數據挖掘手段，和更專業的分析團隊，但目前我們面對的現實是，百度尚未提供國外服務，因此我建議在國內使用百度預測，在國外則使用google預測，或者試試基於社交媒體數據的sickwether，據說准確率也不錯，達到90%。

　　需要指出的是，對預測誤差過分擔心是沒有必要的。正如《大數據時代》一書所說，大數據本身探尋的是一種趨勢，而非精准性，大數據時代需要學會接受數據的不完美。換言之，不能因為不精確而放棄大數據的應用和發展，若要無限接近統計結果的真，必須讓大數據與精細的傳統統計方法互補，而非兩者相互替代。

　　當然，google需要解決大數據浮誇的問題，百度也需要面對一些挑戰。例如，目前我國對大數據給健康服務業發展帶來的影響認識不足，在當前的產業發展規劃中，忽視了大數據對該產業的影響，這些都需要百度運用其行業影響去改善。

　　總的來說，從現在開始，你應該養成出門前看看“疾病預報”的習慣，正如看天氣預報那樣，它惠而不費，而且已經足夠好用，這並不僅限於肝炎。至少我已經開始這麼做了。

肝病症狀傳播傳染肝病危害肝病就醫指南肝病案例肝病用藥

肝病危害

常喝這種水易患脂肪肝 4種食物助預防

脂肪肝是全球慢性肝病的最常見病因。據《報道，美國一項新研究指出，預防脂肪肝的關鍵可能在於避免含糖飲料。研究發現，過多攝入含糖高的飲料會增加患脂肪肝的風險。　　新研究中，華盛頓大學聖路易斯醫學院布賴恩&

出現肝區疼痛務必要去醫院檢查

　　消化道表現是肝病常見的症狀　　很多患者覺得惡心就是胃的問題，結果仔細檢查診斷後才發現，自己患的是肝病。患者甚至因為長期把肝病當胃病治，擅自服藥，結果發展到了肝硬化晚期，或是