你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
廣告平臺數據中心的那些事兒
時間:2016-10-17 12:31   來源:游戲大觀   責任編輯:毛青青

  移動廣告平臺在移動廣告行業(yè)發(fā)展進程上起著重要的促進作用,作為廣告主、開發(fā)者和用戶間的紐帶,市場要求移動廣告平臺必須擁有更領先的技術、更優(yōu)質的資源、更創(chuàng)新的服務模式。如何讓廣告主獲得最好的流量,如何讓開發(fā)者獲得 的變現,如何讓用戶看到不會拒絕的內容,是移動廣告平臺時刻在思考的問題。

  作為業(yè)內覆蓋流量最多的移動廣告平臺,來聽聽暢思廣告技術專家的解答,移動廣告平臺是怎樣有條不紊又高效合理的整合整個市場流量走向的。

  暢思廣告數據中心

  在現今DT時代,數據中心作為企業(yè)數據的集散地,既要保證數據的準確性、及時性、可靠性,也需要對數據的價值進行深度發(fā)掘,從而推動整個公司業(yè)務的發(fā)展。

  不同的領域對數據中心的職責有不同的劃分,本文主要介紹暢思廣告數據平臺的搭建以及改進,希望與大家共同學習交流。

  本文只是一篇概述性的文檔,后面的一系列文章會分模塊對數據平臺的各個部分進行詳細深入的介紹。

  暢思數據平臺每天接收到的數據量有3TB,每天有近萬個數據分析及挖掘任務運行,同時支持廣告平臺、媒體分析平臺、數據追蹤等多條業(yè)務線;對外則提供了每天billion級別訪問量的用戶標簽及CTR服務接口。暢思的集群目前不到100臺,可靠性現在可以達到5個9(99.999%),并且支持數據及指標自動監(jiān)測回溯。

  首先看下暢思數據中心的整體部署及分層圖

  

  圖一 暢思數據中心部署圖

  

  圖二 暢思數據中心分層示意圖

  數據中心一般有四個主要組成部分;A支撐、BI系統(tǒng)、數據分析挖掘、數據展示。下面分部分進行介紹

  1. 基礎支撐

  數據中心,為高效的完成數據的收集、存儲、分析、展示,穩(wěn)定高效的基礎支撐非常重要。

  目前市面上可用的產品比較多,商業(yè)化的有Oracle,IBM InfoSphere,InfoBright,阿里云,AWS等存儲,開源的有Hadoop,Cassandra,Hbase等存儲。

  如圖二 所示,暢思數據中心主要基于Hadoop生態(tài)圈,以及其他開源軟件進行搭建。

  數據中心通過分析挖掘,會產生大量的挖掘結果,不同的用戶層次有不同的挖掘結果,廣告、媒體等粗粒度的用戶還好,對于單個用戶的挖掘結果,數量級非常大,如何保證這類用戶的挖掘結果能被及時有效的訪問到,是大部分數據中心必須解決的問題之一。暢思選用自建的KVCluster集群進行挖掘內容的存儲以及對外服務;暢思的kv集群主要基于Zookeeper進行集中式資源管理及分區(qū)調度,目前可自動加入到集群中的NoSql類型有Hbase、Redis、Ssdb以及Tair,通過集中化管理的方法可以統(tǒng)一調配這些kv分組,在保證滿足業(yè)務需求的同時,大大降低Kv的部署及運維成本。

  2. BI系統(tǒng)

  BI系統(tǒng),主要提供數據收集、處理、入庫、訪問接口的大型服務。目前業(yè)內比較流行的BI系統(tǒng)不管是商用的還是開源的有很多;考慮到廣告平臺本身的業(yè)務邏輯以及成本問題,暢思是基于Hadoop自己構建的BI系統(tǒng),分數據收集、ETL、存儲入庫、調度四個部分。

  2.1 數據收集

  暢思的數據源包括三大類:第一方數據(廣告主、媒體回傳的用戶行為數據),第二方數據(廣告平臺展示、點擊、激活等數據),第三方數據(其他平臺合作數據)。

  第一方數據,可以通過SDK采集、廣告主回調等方式進行數據的收集;第二方數據可直接通過內網進行互傳;第三方數據一般采用API、第三方存儲(AWS S3, 阿里云存儲)、RSYNC等方式進行批量傳輸的方式進行同步。

  暢思目前的解決方案如圖三所示

  

  圖三 日志收集示意圖

  第一方和第二方數據。離線分析,采用批量傳輸和獲取的方式進行數據收集;實時分析,則使用APIlume進行數據的收集。第三方數據,一般通過第三方可靠性存儲作為媒介來獲取,而對于第三方需要實時獲取信息的,則采用API的方式進行通信。

  2.2 日志ETL

  針對第一方、第二方數據。提供配置控制功能,ETL對于不同類型的數據根據配置文件使用不同的解析、轉換、加載的邏輯;注意,需要考慮ETL數據解析各個階段以及后續(xù)處理各個階段之間的時間同步,目前chance直接在同步標識存入到kv中,以進行同步?商鎿Q為使用消息隊列進行同步,不同的邏輯使用不同的隊列,在解耦處理邏輯的同時,保證數據處理的有序性。

  2.3 數據存儲入庫

  暢思選用Hadoop生態(tài)圈作為存儲以及計算的基本工具,并基于原生的Hadoop進行了定制化開發(fā),滿足廣告業(yè)務在穩(wěn)定性、擴展性以及安全性方面的需求。

  在使用層次上,用HDFS分用戶存儲原始數據,對ETL之后產生的格式化數據,按照事先定義好的分區(qū)加載到Hive表中。

  2.4 BI系統(tǒng)任務調度

  數據倉庫數據錄入完畢之后,業(yè)務方就可以訪問庫中的數據,計算分析各類指標;為保證服務的可靠性以及數據的安全性,暢思基于數據倉庫構建了可視化的調度系統(tǒng)。

  主要的流程如圖四所示:

  

  圖四 BI系統(tǒng)調度平臺

  3. 數據分析與挖掘

  3.1 數據分析

  目前暢思的數據分析服務包括三個部分:廣告平臺的運營分析、媒體運營分析以及數據管理調度平臺。

  廣告平臺運營分析。分權限分角色,對廣告平臺上各個項目在不同環(huán)境下在各個流量端的展示、點擊、激活、平臺支出,平臺收入等進行統(tǒng)計分析;

  游戲運營平臺。主要對媒體應用的新增、活躍,付費,留存,TAD,流失,回流等運營指標進行分析,上述指標可以分渠道、分活動、分項目進行深層次分析,以評估各個廣告推廣活動帶來用戶的質量;

  數據管理平臺。為了提高運營、商務等的工作效率,暢思數據中心提供數據管理功能。用戶可以分權限在該平臺上提交數據到數據倉庫或者不同的數據存儲,用戶可以根據這些數據分析產生結果,并可以將這些數據或者數據結果開放給其他用戶使用;用戶也可以根據數據中心分配的權限,從數據倉庫中分析產生結果。

  3.2 數據挖掘

  基于三方數據深挖數據價值。

  包括五個部分:反作弊,用戶標簽,媒體/用戶質量評估,CTR預測,Lookalike。

  3.2.1 反作弊

  廣告行業(yè),流量端作弊十分常見,如何過濾掉這部分假量,對于廣告主以及平臺來講至關重要。暢思作為業(yè)內第一家使用并推廣反作弊的企業(yè),在反作弊方面有許多成熟的積累。目前暢思反作弊包括規(guī)則策略以及模型兩部分。規(guī)則策略主要是對固定的作弊模式進行直接查殺,目前暢思反作弊系統(tǒng)的規(guī)則策略大概有30大項,可以有效過濾一大批“小白”作弊用戶;反作弊模型則是根據已發(fā)現作弊用戶的行為,提取作弊用戶的特征,用機器學習的方法盡早發(fā)現作弊用戶,減少平臺以及廣告主的損失。

  規(guī)則策略流程如圖五所示,模型策略如圖六所示。

  

  圖五 反作弊規(guī)則流程圖

  

  圖六 反作弊模型流程圖

  反作弊模型與規(guī)則策略相輔相成,可以通過反作弊模型發(fā)現新的作弊模式,然后結合行為序列發(fā)掘,歸結為固定的規(guī)則,可進一步豐富規(guī)則策略;而規(guī)則策略,對于已查殺的用戶,分析其被殺掉之前的行為,可有效豐富反作弊需要的樣本,進一步提高反作弊模型的泛化能力。

  3.2.2 用戶標簽

  對用戶進行精準化投放的基礎。用戶的標簽分為靜態(tài)標簽和動態(tài)標簽,靜態(tài)標簽主要指用戶的性別,年齡,地域等信息,動態(tài)標簽主要是用戶的興趣標簽。

  目前暢思數據中心有效的標簽量在幾千個,并且提供了可定制化功能開放給廣告主使用,廣告主可以根據自己的需求,定義自己的標簽,用定制的標簽來指導投放。

  定制化標簽可以基于關鍵詞,也可以基于已有標簽進行邏輯計算獲得,暢思支持的邏輯運算有與,或,非,加,減等。

  3.2.3 媒體/用戶質量評估

  有了用戶標簽、用戶在廣告平臺中的行為信息、用戶在媒體應用上的行為信息,暢思數據平臺對媒體流量以及用戶進行了分級。

  媒體質量,分類別、分效果計算出各個媒體的基礎得分,對質量不同的媒體,指導廣告投放平臺進行區(qū)別投放。

  用戶質量,采用聚類的方法對用戶進行人群劃分,對各個群體進行廣告效果、活躍度等多方面的評估,得到各類人群的評分。

  3.2.4 CTR預測

  基于用戶的畫像信息,媒體流量信息,廣告項目信息等多種特征,進行點擊率預測。目前采用的特征有600+,使用的基礎模型是LR,采用LR的主要原因是移動廣告平臺用戶受媒體或者渠道切入流量的限制,信息過于稀疏,對于特征的提取,進行了較多的人工介入,后續(xù)我們也會嘗試在LR中加入特征選擇的步驟,提高訓練及調優(yōu)效率。

  3.2.5 Lookalike

  相似用戶發(fā)現,主要根據廣告主或者投放項目反饋回來的用戶信息,進行同類用戶的精準投放。Lookalike發(fā)現的方法有兩大類:有監(jiān)督訓練獲取以及無監(jiān)督訓練獲取。有監(jiān)督獲取采用分類的方法進行用戶發(fā)現,該類方法的優(yōu)點的準確度高,缺點是得到的用戶覆蓋面不夠,并且負樣本不太容易收集;無監(jiān)督獲取主要采用聚類的方法對用戶進行分群,然后根據群體的信息,從用戶庫中獲取類似的用戶,該類方法的優(yōu)點是得到的用戶覆蓋面較廣,并且得到的用戶在行為上符合某類分布,對異常用戶不敏感,缺點是需要的訓練樣本比較多,對于比較大的投放項目比較合適。目前,暢思主要以無監(jiān)督的方法為基礎,對同一個項目下的用戶進行人群切分,然后去積累的用戶系統(tǒng)中獲取相似的用戶。

  4. 數據可視化

  數據可視化作為數據分析結果以及數據挖掘結果呈現的重要媒介,在數據平臺產品化方面起著非常重要的作用。目前暢思數據可視化主要包括三個平臺:廣告運營指標可視化,媒體運營可視化,數據管理可視化。各平臺的介紹可以看數據分析部分的內容。

  廣告運營指標可視化,主要提供各類指標,指標同比/環(huán)比對比等分析功能,如圖七所示:

  

  圖七 暢思平臺數據運營中心

  媒體運營可視化,主要是展示媒體運營中所使用的指標以及詳細分析情況,如圖:

  

  圖八 暢思游戲運營平臺示例

  數據管理可視化,主要提供用戶獲取數據、上傳數據、分析數據的可視化接口,提高廣告主或者運營的分析效率。

  

  圖九 暢思數據管理平臺示例

  5.總結

 …過幾年的沉淀,暢思廣告平臺已累計了海量的大數據樣本,并且在業(yè)內最領先技術的支配下,可以輕松實現三方利益最大化。

  通過以上的介紹,希望大家對數據中心的功能以及作用有一個比較清晰的認識及了解。數據中心的搭建是一個長期過程,其相關技術也在快速的發(fā)展進步,在這里通過與大家交流,希望大家更加關注數據技術在移動互聯網領域的應用,為流量以及數據變現提供更有效的技術支持方案。

   投稿郵箱:chuanbeiol@163.com   詳情請訪問川北在線:http://www.dstuf.com/

川北在線-川北全搜索版權與免責聲明
①凡注明"來源:XXX(非在線)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
②本站所載之信息僅為網民提供參考之用,不構成任何投資建議,文章觀點不代表本站立場,其真實性由作者或稿源方負責,本站信息接受廣大網民的監(jiān)督、投訴、批評。
③本站轉載純粹出于為網民傳遞更多信息之目的,本站不原創(chuàng)、不存儲視頻,所有視頻均分享自其他視頻分享網站,如涉及到您的版權問題,請與本網聯系,我站將及時進行刪除處理。



圖庫
合作媒體
金寵物 綠植迷
法律顧問:ITLAW-莊毅雄律師