在上篇講到了廣告系統的 DMP 到底是怎麼運作,該資料到底是怎麼來?怎麼去? 這裡開始談怎麼運用。
資料怎麼用?
前面提過 cookie
會存取使用者瀏覽過的網址以及各頁面上的點擊資訊。基本上,廣告聯播網拿到的 cookie
無法辨識出該使用者是誰,更不清楚這個人是男生還是女生,因為 cookie
存取的資料有限,除非網站主願意分享自己站上該使用者登入後的資料,再把該使用者上站時的資料與登入後的狀態資料交集在一起,這才有可能比較準確知道該使用者是誰,不然的話,大多
cookie 取回來的資料都是遠遠猜測使用者是誰。
既然用猜的,那就有一套猜測方法。辨識方式才是所有資料分析之中最困難、最麻煩的地方。大致上可以分成三個面相:
1. 使用者瀏覽過後的內容比對
2. 使用者瀏覽行為與路徑記錄
3. 使用者被標籤反覆不斷標記
簡單來講,當使用者瀏覽過某個網頁後,會在 cookie 上存下瀏覽的
URL,然後廣告聯播平台,不論是用資料爬蟲或是快照的方式,將該 URL
上的內容儲存下來,進行內容標籤化的工作。這段工作又可分成兩段,一段是人工、一段是機器。當廣告聯播網面臨的網站不多以及頁面內容數量較少時,採取人工作法去分類每個
URL 裡的內容,並對該 URL
下標記會比較容易。可是當網站數量一多,各網站的內容頁面數量一大,人工處理就顯得非常無力,這時透過機器去分會比較適當,可是要用到機器去分,又得扯到自然語義分析。
我們稱這類工作叫做內容比對,透過將內容比對產出的標籤,標記到使用者上。這邊指的使用者,指的是來瀏覽網站的人,實際上並不是真的知道他(她)是誰,而是透過每個存取的
cookie 賦予一個 ID,每個 ID 都會在資料庫端存取一份,然後將這些
ID,貼上各式各樣的標記。貼標記的作用在於定義出使用者輪廓,例如該使用者看的各網頁內容有刮鬍刀、刮鬍泡泡、柔膚水、古龍水等,這些關鍵字一貼到使用者上,資料分析人員會很粗淺的劃分該使用者或許為男性。
上述這段的解釋,就是我們用來定義使用者之前,會先針對網站進行內容分析的使用者demography
定義。這是一種假設,很不精確但卻提供一種可能性,我們不知道使用者到底是不是如我們所想,可是與其在茫然模糊的大海裡,連辨識都不知道怎麼做起,倒不如先用該使用者接觸到的內容作為定義之中心。從中,工程師訓練機器開始學習並改善使用者之於
demography 的精確性。能找出來的 demography
可能有性別、年齡、消費水平、居住地、學歷等,資料準確性不高,但這只是其中一個面相。
(Photo Credit: Scott Cresswell)
從內容比對,還可比對出使用者的興趣。一樣用標記的方式,將各網站上的內容分析置入到
interest
類別裡。這類別,主要看的是使用者對哪些事物有興趣,以及接觸這些內容的頻率。興趣類別中,又有所謂的精準興趣、相似興趣、模糊興趣等類別,每個類別底下的興趣分支其實都差不多,差別只在於精準,是用來判定使用者有在網站上產生過具體交易行為或是某些行動,會把使用行為分析交叉寫入到興趣資料之中。至於相似則是從中找到該使用者與其他使用者,可能類似相近的興趣。模糊則是推測具有同樣
demography 的使用者,以及相似但頻率不高的興趣,採取基礎資料交集。
Demography 有了,interest 有了,再來就是
behavior。使用者到每個不同網站的行為都不大一樣,例如瀏覽新聞類型的網站,可能有很大一部分都是靠著臉書或搜尋連過去,但電子商務的網站,則有可能是靠著廣告宣傳。不同的網站類型,所牽動的使用者行為也都不同,因此分析者得先針對不同的網站做不同類型的行為脈絡定義。這定義並不難,也就是一個網站的瀏覽行為,到底需不需要登入,有沒有購買,會不會結帳,有無其他必要行動才可以到下一個單元,在
GA 裡面,我們稱作工作階段。
所以,從 cookie 來的資料,被加工處理過後,會被
demography、interest、behavior
這三者資料,像是金字塔般的以使用者為中心,圍繞著使用者,不斷增長並且豐富其資料。請注意,這邊談的是豐富其資料,不代表資料會變得更精準,要讓使用者資料變得更準確,嚴格來講,不是真實世界的準確,而是網路世界裡的人格與行為相似於我們所描述輪廓的那一群人,那就得反覆重新的進行
tagging。Tagging
的目的有兩個,一個是將使用者定義的更精確,另一個則是讓機器學習,從網站中間接辨別使用者。
到此,資料怎麼來、怎麼去、怎麼用,不過就只是一套 DMP 開發基礎,然後廣告聯播網的 DMP
設計又不只面向使用者,還有另外一端是代表著廣告主的廣告操作人員。廣告操作人員在操作廣告時,將廣告投放到各大網站,使用者有無點擊,攸關廣告操作人員依據什麼樣的資料來投放。廣告操作人員之於投放準的使用者,使用者對於網站內容以及廣告素材,這之間是屬於隨時都在動態改變的資料模式,難以被輕易找出固定脈絡,也因此廣告成效要準確做到某種程度,數據沒有大到某種量級,分析能力沒有強到某種程度,可以說是完全做不來。
(Photo Credit: Matthew
Hutchinson)
最後,回到第一段,廣告聯播網之於 DMP
所對準的廣告受眾,就是整篇文章在講造訪網站的使用者。使用者能不能依循著廣告主的意圖、意念,接觸到廣告之後進而採取行動,是每個廣告聯播網面臨的最大挑戰,因為這背後處理的是極為龐大又難以理解的資料,資料的正確性低,而為了要加強資料正確性,在系統尚未成熟的早期,都得透過大量人工辨識的方式來輔助或標記,直到機器的行為到達一定準確度,例如機器做的跟人做的相似度達
70% 以上,此時某些資料就可以交由機器自動判斷處理。
由人與機器之間反覆的協作,提昇資料可用性,最後能成為可以轉換為營運資金的廣告平台基礎是DMP
設計時的原始核心要素,而這段路隨著越發展越深,則會進入到人工智慧的領域,那處理資料與運算的速度、規模跟量級,又是另外一個完全不同世界的事情了。以上,說的容易做得難,特別這例子僅包括網站,其他還有行動裝置裡的
app、其他數位裝置等,每種不同平台能獲取的資料都不同,再加上現在使用者不會僅用一台電腦上網,有可能在公司一台、在家一台,然後明明就是同一個人,可在兩台電腦上的使用行為卻大不同,導致在系統端的解讀也有可能會是完全獨立的兩個人。
大數據談了好幾年,落實到應用層面的情境,比較能為人所見的就算數位廣告聯播為顯學,另一則是網路口碑分析及輿情預測,其他運用大數據的領域,舉凡像是醫療、農業、金融等,較難為一般人所接觸,反倒數位廣告因
Google、Facebook 等平台出現,還有越來越普遍的 AD Exchange,才讓 DMP
這類存在已久的應用,伴隨著大數據一起熱鬧浮上檯面。
延伸閱讀
大數據:談資料管理平台(DMP )與廣告聯播網間的關係(上)
原文出處
轉載自合作媒體 Inside 硬塞的網路趨勢觀察
↧