創(chuàng)業(yè)詞典網(wǎng) 創(chuàng)業(yè)知識學(xué)習(xí)分享
醫(yī)療行業(yè)是數(shù)據(jù)密集型產(chǎn)業(yè),數(shù)據(jù)積累亙古存在。
然而,在數(shù)據(jù)的應(yīng)用水平上,醫(yī)療行業(yè)遠遠落后于互聯(lián)網(wǎng)、金融和電信等信息化程度更好的行業(yè)。
峰瑞資本生物醫(yī)療技術(shù)團隊從數(shù)據(jù)產(chǎn)生、數(shù)據(jù)處理、數(shù)據(jù)消費的角度分析了醫(yī)療數(shù)據(jù)產(chǎn)業(yè)鏈。
分析顯示,醫(yī)院、診所等專業(yè)醫(yī)療機構(gòu)和保險機構(gòu)仍然是醫(yī)療數(shù)據(jù)產(chǎn)生的最重要來源,來自手機 App 和可穿戴設(shè)備的數(shù)據(jù)開始提升數(shù)據(jù)的完整性、連續(xù)性和準(zhǔn)確性;數(shù)據(jù)處理是個系統(tǒng)工程,包括清洗、整理、分析等標(biāo)準(zhǔn)環(huán)節(jié),對數(shù)據(jù)結(jié)構(gòu)化提出了更高要求;截至目前,為醫(yī)療數(shù)據(jù)買單的是 B 端的醫(yī)療機構(gòu)、藥企和保險公司,讓 C 端的病人和醫(yī)生為數(shù)據(jù)付費目前還不現(xiàn)實。
美國的醫(yī)療體制相對市場化,對醫(yī)療體系的投入巨大,使其在技術(shù)、服務(wù)和流程等支柱產(chǎn)業(yè),都可以成為中國醫(yī)療產(chǎn)業(yè)發(fā)展的遠景參照物。
近幾年,醫(yī)療數(shù)據(jù)產(chǎn)業(yè)在美國發(fā)展迅速。
峰瑞資本生物醫(yī)療技術(shù)團隊挑選了4 家有代表性的美國醫(yī)療大數(shù)據(jù)公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。
如果您在醫(yī)療健康領(lǐng)域有創(chuàng)業(yè)想法,可以與本文作者、峰瑞資本醫(yī)療組早期項目負(fù)責(zé)人王蕾( lei@freesvc)和譚驗(yantan@freesvc)聯(lián)系。
加入峰瑞資本前,王蕾曾任職于美國最大的醫(yī)藥咨詢和市場調(diào)研公司 IMS Health,負(fù)責(zé)為國際和中國本土醫(yī)藥企業(yè)提供戰(zhàn)略和戰(zhàn)術(shù)咨詢。
譚驗曾是 Tamr 早期員工,大數(shù)據(jù)整合平臺公司 Tamr 由 2014 年圖靈獎獲得者、美國數(shù)據(jù)庫專家 Michael Stonebraker 創(chuàng)辦。
大數(shù)據(jù)產(chǎn)業(yè)的出現(xiàn)和醫(yī)療數(shù)據(jù)投資策略分析文 / 譚驗(yantan@freesvc)王蕾(lei@freesvc)/ 01 /IBM 用 3V 定義大數(shù)據(jù)IBM 最早提出了大數(shù)據(jù)的 3V 定義。
3V 是 Volume,Variety,Velocity。
Volume 比較好理解,因為大數(shù)據(jù)本身的 “大” 代表了數(shù)據(jù)數(shù)量的巨大。
數(shù)據(jù)量越來越大的原因很多,其中一個是現(xiàn)在機器和網(wǎng)絡(luò)每天都在生成大量的數(shù)據(jù)。
據(jù)統(tǒng)計,我們現(xiàn)在每兩天產(chǎn)生的數(shù)據(jù)量約等于自人類文明開始到 2013 年的數(shù)據(jù)量的總和。
第二個特征是 Variety,多樣化。
多樣化主要指不同的數(shù)據(jù)來源和種類。
傳統(tǒng)意義上的數(shù)據(jù)主要來自類似 excel 的表格和數(shù)據(jù)庫。
現(xiàn)在人類能夠分析各種形式和類型的數(shù)據(jù),比如電子郵件、圖片、視頻、音頻、監(jiān)控儀器,等等。
第三個特征是 Velocity,即數(shù)據(jù)生成的速度。
比如,互聯(lián)網(wǎng)上數(shù)據(jù)的生成是以秒甚至毫秒來計算的。
再比如,基因測序儀、網(wǎng)絡(luò)監(jiān)控的錄像,都在隨時隨地產(chǎn)生大量數(shù)據(jù)。
以上 3 個 V 是公認(rèn)的大數(shù)據(jù)定義。
在 2013 年波士頓的大數(shù)據(jù)峰會上,Express Scripts 的首席數(shù)據(jù)科學(xué)家 Inderpal Bhandar 提出了 Veracity 的概念。
Veracity 主要是指數(shù)據(jù)是否有偏差、數(shù)據(jù)噪聲有多大,以及是否有異常值。
當(dāng)業(yè)界大量積累各種來源的數(shù)據(jù)時,數(shù)據(jù)是否準(zhǔn)確變成一個非常重大的問題,否則最后就是 “Garbage in,Garbage out”。
峰瑞觀點(freesvc)從以上對大數(shù)據(jù)的描述可以發(fā)現(xiàn),大數(shù)據(jù)對數(shù)據(jù)存儲、數(shù)據(jù)傳輸和數(shù)據(jù)處理這 3 方面的能力提出了挑戰(zhàn)。
企業(yè)在數(shù)據(jù)產(chǎn)生和處理端也逐漸出現(xiàn)了一些變化。
企業(yè)開始存儲海量數(shù)據(jù),數(shù)據(jù)傳輸并分布式地存儲到數(shù)據(jù)中心,數(shù)據(jù)在云端進行處理和分析,通過網(wǎng)絡(luò)端進行數(shù)據(jù)的呈現(xiàn)并指導(dǎo)商業(yè)決策。
/ 02 /大數(shù)據(jù)的產(chǎn)業(yè)鏈分析得益于計算能力的快速增長、數(shù)據(jù)傳輸能力的增長和成本的下降,以及數(shù)據(jù)儲存成本的下降,大數(shù)據(jù)獲得了極大的發(fā)展。
▌上游數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)產(chǎn)業(yè)的最上游是數(shù)據(jù)的產(chǎn)生,這包括了數(shù)據(jù)的定義和數(shù)據(jù)的搜集。
數(shù)據(jù)的定義顧名思義就是定義哪些是數(shù)據(jù)。
例如在搜索廣告出現(xiàn)之前,用戶點擊鏈接本身并不產(chǎn)生任何價值,也就不被定義為數(shù)據(jù)。
數(shù)據(jù)定義產(chǎn)生之后,就開始快速、準(zhǔn)確、有效地收集數(shù)據(jù)。
▌中游數(shù)據(jù)的處理大數(shù)據(jù)產(chǎn)業(yè)的中游是數(shù)據(jù)處理,其中包括了數(shù)據(jù)的準(zhǔn)備,例如數(shù)據(jù)清洗和整合,以及數(shù)據(jù)分析,例如數(shù)據(jù)建模、可視化呈現(xiàn),等等。
▌下游數(shù)據(jù)的消費大數(shù)據(jù)產(chǎn)業(yè)的最下游是數(shù)據(jù)消費,例如利用數(shù)據(jù)指導(dǎo)商業(yè)決策,指導(dǎo)商業(yè)決策之后產(chǎn)生的結(jié)果本身又成為了新的數(shù)據(jù),因此數(shù)據(jù)的消費和數(shù)據(jù)的產(chǎn)生形成了一個閉環(huán)。
在整個大數(shù)據(jù)產(chǎn)業(yè)的所有環(huán)節(jié)中都存在數(shù)據(jù)存儲和數(shù)據(jù)管理,這兩個技術(shù)貫穿了整個大數(shù)據(jù)的周期。
/ 03 /數(shù)據(jù)驅(qū)動型企業(yè)結(jié)構(gòu)的分析在一個通過數(shù)據(jù)驅(qū)動的商業(yè)環(huán)境中,企業(yè)組織或者技術(shù)組織結(jié)構(gòu)一般分為以下 3 個邏輯板塊。
從底層到上層分別是 Data engineering(數(shù)據(jù)工程),Data sciences(數(shù)據(jù)科學(xué))和 Decision sciences(決策科學(xué))。
▌下層數(shù)據(jù)平臺:通用性平臺為主,完整解決方案,開源解決方案最底層是工程性的工作,主要指對于數(shù)據(jù)底層的工程性技術(shù)解決方案,例如對原始數(shù)據(jù)進行清洗、驗證和糾正,數(shù)據(jù)儲存和調(diào)取。
在這一層有很多的開源解決方案和系統(tǒng)集成服務(wù)商。
這一步的目的是收集和整理大量數(shù)據(jù),把它變成便于數(shù)據(jù)科學(xué)家使用的方式。
大部分企業(yè)或者工程師把 80% 的時間花在了這一步 。
美國財富雜志前幾天公布的數(shù)據(jù)顯示,美國企業(yè)每年在大數(shù)據(jù)服務(wù)上的花費是 40 億美金左右,其中 40% 花在了數(shù)據(jù)整合和清洗上。
可以說,整個數(shù)據(jù)工程在時間和花費上都占據(jù)了很重要的位置。
▌中層算法和數(shù)據(jù)呈現(xiàn):通用性算法接口,行業(yè)專業(yè)知識,開源解決方案處于中間層的是數(shù)據(jù)科學(xué),這可能是大家最常聽到的一個領(lǐng)域。
現(xiàn)在很熱的人工智能、深度學(xué)習(xí),都屬于這一層。
這一層的作用是通過數(shù)據(jù)建立起對某個問題的模型。
比如說,通過歷史數(shù)據(jù)建立起天氣預(yù)報模型,或者通過大量病理數(shù)據(jù)建立起疾病的預(yù)測或者診斷模型。
開源社區(qū)的發(fā)展讓很多非常復(fù)雜的算法模型變得非常容易使用,極大地促進了數(shù)據(jù)科學(xué)的發(fā)展。
數(shù)據(jù)科學(xué)家可以很快地驗證預(yù)測模型,并使用到實際的商業(yè)項目中。
目前的解決方案主要是開源方案,一些商業(yè) API 以及企業(yè)內(nèi)部的私有數(shù)據(jù)計算框架等等。
▌上層商業(yè)決策:深入的行業(yè)專業(yè)知識,商業(yè)洞察,內(nèi)部決策和外部咨詢第三層是決策科學(xué),它是數(shù)據(jù)的最頂層,也是實際產(chǎn)生商業(yè)價值的。
比如我們預(yù)測明天要下雨,這個預(yù)測的價值在于,得到這個信息的商家第二天可以把傘放到更明顯的地方,以增加購買量。
這樣就產(chǎn)生了商業(yè)價值。
這只是一個簡單的例子,實際情況要復(fù)雜很多。
比如,很多游戲中,機器可以根據(jù)玩家玩游戲的時間、模式,來預(yù)測用戶是否對游戲感興趣,一旦發(fā)現(xiàn)玩家對游戲的興趣正在減弱,就會自動進行一些獎勵措施,比如獎勵裝備、獎勵點數(shù)來留住玩家,都是商業(yè)決策的范疇。
▲ 大數(shù)據(jù)的產(chǎn)生和利用,天生就和商業(yè)決策聯(lián)系緊密。
/ 04 /大數(shù)據(jù)企業(yè)的商業(yè)模式:在咨詢和軟件服務(wù)中徘徊大數(shù)據(jù)的價值往往通過商業(yè)價值來體現(xiàn),而不同公司的商業(yè)邏輯往往有很大的區(qū)別。
因此,大數(shù)據(jù)公司往往在咨詢模式和軟件模式之間徘徊。
這兩種商業(yè)模式不難理解,咨詢有很強的可定制性,能夠準(zhǔn)確有效地解決公司的商業(yè)需求,但是需要大量和長期的人力支持,花費高,不容易規(guī)?;?。
軟件服務(wù)則具有邊際成本低、人力支持少、容易規(guī)?;奶攸c,但是它缺乏可定制性。
很多時候企業(yè)并不能直接解決問題,所以面臨難以銷售的問題。
/ 05 /企業(yè)數(shù)據(jù)化的演化歷程:傳統(tǒng)信息化,在線化,云化,數(shù)據(jù)化企業(yè)數(shù)據(jù)化的演化歷程:傳統(tǒng)信息化,在線化,云化,數(shù)據(jù)化。
各個行業(yè)的數(shù)據(jù)化發(fā)展程度,因其行業(yè)特點而不同。
相較于傳統(tǒng)零售、農(nóng)業(yè)和制造業(yè),醫(yī)療行業(yè)在數(shù)據(jù)積累上有領(lǐng)先優(yōu)勢,但是在數(shù)據(jù)的應(yīng)用水平上,醫(yī)療行業(yè)遠遠落后于互聯(lián)網(wǎng)、金融和電信等信息化程度更好的行業(yè)。
峰瑞觀點(freesvc)通過分析各個行業(yè)數(shù)據(jù)化的程度看到:互聯(lián)網(wǎng)化程度越高的企業(yè)數(shù)據(jù)化水平越高數(shù)據(jù)變現(xiàn)越容易的企業(yè)數(shù)據(jù)化程度越高個性化需求越高的企業(yè)數(shù)據(jù)化程度越明顯數(shù)據(jù)儲備量越大的企業(yè)數(shù)據(jù)化趨勢越快行業(yè)的數(shù)據(jù)化受到商業(yè)變現(xiàn)能力和模式的驅(qū)動依賴于底層基礎(chǔ)設(shè)施的發(fā)展依賴于行業(yè)數(shù)據(jù)的積累/ 06 /醫(yī)療數(shù)據(jù)產(chǎn)業(yè)鏈接下來我們從數(shù)據(jù)產(chǎn)生、數(shù)據(jù)處理、數(shù)據(jù)消費的角度來分析醫(yī)療數(shù)據(jù)產(chǎn)業(yè)鏈。
目前,醫(yī)療數(shù)據(jù)的產(chǎn)生最大的來源是醫(yī)院、診所等專業(yè)醫(yī)療機構(gòu)以及保險機構(gòu)。
這些數(shù)據(jù)包含了病理、臨床、診療和理賠數(shù)據(jù)。
隨著移動醫(yī)療和智能硬件行業(yè)的發(fā)展,越來越多的數(shù)據(jù)開始來自手機 App 記錄以及可穿戴設(shè)備,這些數(shù)據(jù)主要包含了人體的生命體征和行為數(shù)據(jù),等等。
這些數(shù)據(jù)有助于提升數(shù)據(jù)的完整性、連續(xù)性和準(zhǔn)確性,并開始得到重視。
峰瑞資本投資的 Haalthy 已經(jīng)在收集肺癌用戶院外數(shù)據(jù)方面取得進展。
醫(yī)療數(shù)據(jù)的處理不僅包含清洗、整理和分析等標(biāo)準(zhǔn)環(huán)節(jié),它還有其特殊性。
例如,臨床數(shù)據(jù)往往來自于電子病歷等以自然語言描述的文本文件,且不同醫(yī)療機構(gòu)或者醫(yī)生對臨床癥狀的描述往往存在一些細微差別,這對數(shù)據(jù)結(jié)構(gòu)化提出了較高的需求。
醫(yī)療數(shù)據(jù)的消費端比較明確,在 C 端主要是病人和醫(yī)生,B 端包括了醫(yī)療機構(gòu)、藥企和保險公司等。
從目前的情況來看,通過 C 端來收費和變現(xiàn)比較困難,主要的商業(yè)模式還是圍繞著 B 端開發(fā)。
/ 07 /美國 Top 醫(yī)療大數(shù)據(jù)公司產(chǎn)品分析近幾年,醫(yī)療數(shù)據(jù)產(chǎn)業(yè)在美國發(fā)展迅速。
這歸功于電子病歷在過去 10 年的逐步普及,以及包括醫(yī)院、藥廠和保險等機構(gòu)對數(shù)據(jù)分析價值的高度認(rèn)可。
除了傳統(tǒng)的數(shù)據(jù)巨頭 IMS Health,一些新型數(shù)據(jù)公司和數(shù)據(jù)分析公司紛紛涌現(xiàn)。
我們挑出 4 家有代表性的公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)來分析。
它們分別代表了當(dāng)前醫(yī)療數(shù)據(jù)領(lǐng)域發(fā)展的大方向:基于腫瘤臨床數(shù)據(jù)的事實;腫瘤人工智能輔助決策;腫瘤全景數(shù)據(jù);醫(yī)療公眾資源數(shù)據(jù)。
我們把重點放到腫瘤數(shù)據(jù)上。
這個領(lǐng)域的診療過程復(fù)雜、不確定性高、治愈率低,市場價值巨大,因而,數(shù)據(jù)在這個領(lǐng)域的作用和價值也得以突顯和被重視。
其它疾病領(lǐng)域數(shù)據(jù)的方法論其實非常相似。
▌以 Flatiron 為例創(chuàng)立于 2012 年的 Flatiron 是一家基于腫瘤病患的醫(yī)療數(shù)據(jù)分析公司。
它接連獲得頂級投資機構(gòu)和藥廠的融資,抗癌藥巨頭 Roche/Genetech 的參與充分說明機構(gòu)方認(rèn)可癌癥臨床數(shù)據(jù)對藥品研發(fā)和市場指導(dǎo)的作用。
Flatiron 平臺由行業(yè)領(lǐng)先的腫瘤學(xué)家、醫(yī)生和工程師共同打造,在這個平臺上醫(yī)生可以記錄、整理、追蹤和分析自己病人的情況。
▲ FLATIRON 的網(wǎng)站首頁上寫著:腫瘤治療技術(shù)的新標(biāo)準(zhǔn)。
基于平臺上收集到的信息, Flatiron 打造了幾款主要產(chǎn)品。
FLATIRON- ONCOEMR 是一個癌癥病人電子病歷,它的主要使用方是醫(yī)院和醫(yī)生,藥廠也會購買它后臺的數(shù)據(jù),然后自己做數(shù)據(jù)分析,或者通過第三方協(xié)議的形式由 IMS Health 幫助與其他數(shù)據(jù)進行整合。
其它醫(yī)療數(shù)據(jù)分析和人工智能公司也是 FLATIRON- ONCOEMR 后臺數(shù)據(jù)的使用者。
FLATIRON-ONCOANALYTICS 主要基于數(shù)據(jù)做整理,并形成高質(zhì)量的分析和總結(jié)。
比如,某種類型的病人的增長、正在治療的病人的增長、存活率的跟進,這類產(chǎn)品能對醫(yī)院與醫(yī)生管理診療工作和病人提供商業(yè)和運營上的見解,受到醫(yī)療機構(gòu)的歡迎。
FLATIRON-ONCOBILLING 在醫(yī)保、商保發(fā)達的美國用途廣泛。
在醫(yī)院和醫(yī)生端,F(xiàn)LATIRON-ONCOBILLING 清晰地了解治療的付費情況、病人的保險組合,對各項治療、各類病人的成本和收入,采用更合理有效的治療流程和手段,以更好的控費;保險公司對這類產(chǎn)品的關(guān)注度更是毋庸置疑,大量數(shù)據(jù)能為控費和更好的理賠設(shè)計提供支持。
和 Flatiron 一樣,也有一些平臺基于電子病歷的數(shù)據(jù)積累,建立起過往沒有的診療過程的數(shù)據(jù)挖掘。
盡管它們是基于樣本醫(yī)院的病歷, 但是已經(jīng)足夠大到提供統(tǒng)計學(xué)上有意義的 “怎樣做” 和 “為什么” 的見解。
▌IBM Watson Oncology最大的私家癌癥中心 MSKCC 與 IBM 合作,將臨床專業(yè)知識、分子和染色體數(shù)據(jù)、以及大量癌癥案例數(shù)據(jù)整合到一項循證解決方案中, 分析大量數(shù)據(jù)并從中提取重要信息,以制定出關(guān)鍵決策。
腫瘤學(xué)專家培訓(xùn) Watson,將患者的醫(yī)學(xué)信息與大量的治療方針、已發(fā)表的研究結(jié)果和其他洞察力信息相對比,為醫(yī)師提供個性化的、基于置信度的建議。
Watson 的自然語言處理能力允許系統(tǒng)利用非結(jié)構(gòu)化數(shù)據(jù),例如雜志文章、醫(yī)師的筆記、以及來自 National Comprehensive Cancer Network (NCCN) 的指導(dǎo)方針和最佳實踐信息。
▌IMS Health Oncology Analyzer憑借龐大的用藥和醫(yī)生數(shù)據(jù)基礎(chǔ),結(jié)合豐富的醫(yī)藥咨詢經(jīng)驗,醫(yī)療數(shù)據(jù)界的巨頭 IMS Health 多年來一直在打造醫(yī)藥醫(yī)療全景數(shù)據(jù)圖。
沒有任何一個數(shù)據(jù)源頭能提供足夠全面的信息,IMS 除了擁有巨大的數(shù)據(jù)量,在數(shù)據(jù)拼接和整合上也有豐富的經(jīng)驗,隨著電子病歷數(shù)據(jù)的引入和增長,IMS 致力于把藥廠銷量、銷售到醫(yī)療機構(gòu)的量、醫(yī)療機構(gòu)用藥治療情況以及病人保險付費情況全部串聯(lián)到一起。
并購了 Quintile 以后,IMS 還能整合臨床實驗的數(shù)據(jù)。
其咨詢業(yè)務(wù)基于 IMS 自身匯攏的數(shù)據(jù)產(chǎn)生的見解,能夠?qū)?shù)據(jù)業(yè)務(wù)帶來良好正反饋。
合并后近 200 億美金的估值體現(xiàn)了市場對醫(yī)療數(shù)據(jù)價值的認(rèn)可。
IMS 在世界范圍內(nèi)不斷復(fù)制其美國模式,逐步形成自己的壟斷地位。
Palantir 的模式在中國比較難于復(fù)制, 先不贅述。
峰瑞觀點(freesvc)了解了以上幾家美國著名醫(yī)療數(shù)據(jù)公司后, 我們回顧下之前的報告(我們曾經(jīng)對比過中美醫(yī)療數(shù)據(jù)市場階段的差距),并結(jié)合中國現(xiàn)有醫(yī)療數(shù)據(jù)項目的重點, 我們總結(jié)出中國醫(yī)療數(shù)據(jù)創(chuàng)業(yè)項目的 4 大方向:1. 基于腫瘤臨床數(shù)據(jù)的事實。
大量創(chuàng)業(yè)項目從這個方向切入;2. 腫瘤人工智能輔助決策。
現(xiàn)在相對較難,因為是建立在 1 的基礎(chǔ)上;3. 腫瘤全景數(shù)據(jù)。
和 1 類似,創(chuàng)業(yè)項目能獲取到的其他數(shù)據(jù)比較少;4. 醫(yī)療公眾資源數(shù)據(jù)。
中國的數(shù)據(jù)基礎(chǔ)弱,這個方向可能需要國家和上層推動。
下一篇:如何走出創(chuàng)業(yè)過程中“悲傷的低谷” 下一篇 【方向鍵 ( → )下一篇】
上一篇:徐小平:創(chuàng)業(yè)者一定要做網(wǎng)紅,有內(nèi)容才是真網(wǎng)紅 上一篇 【方向鍵 ( ← )上一篇】
快搜