Mobile User and App Analytics in China TEAM APACHE HADOOP, IMC INSTITUTE 30 JULY 2016
Mobile User and App Analytics in ChinaTEAM APACHE HADOOP, IMC INSTITUTE
30 JULY 2016
IMC Institute: Apache Hadoop Team Logo
Logo Credit: Agile Thailand 2016
ความเปนมาของโจทย: แนะน า Kaggle
TalkingData คอบรษทอะไร?
"TalkingData เปนแพลตฟอรมของบคคลทสามขอมลมอถอทใหญทสดของประเทศจน ทางบรษทเขาใจวาทางเลอกในชวตประจ าวนและพฤตกรรมของผใชมอถอผลกดนใหพวกเราสรางคณคาตางๆได ปจจบนบรษท TalkingData ก าลงมองหาประโยชนจากฐานขอมลพฤตกรรมผใชมอถอจากกวา 70% ของ 500 ล า น โทรศ พท ม อ ถ อท ใ ช ง าน ในชวตประจ าวนในประเทศจนเพอชวยใหลกคาของตนเขาใจและมปฏสมพนธกบผใชของพวกเขา”
TalkingData: ขอมลขนาดใหญทเขามาในแตละวน
TalkingData Website: https://www.talkingdata.com/
โจทยปญหา
• พฤตกรรมการใชแอพพลเคชนของผใชมอถอ• แอพพลเคชนประเภทใดไดรบความนยมมากทสด• ผใชมอถอนยมใชแอพพลเคชนในชวงใดของวนและวนใดบางในแตละอาทตย • จ านวนผใชมอถอแบงตามเพศและอายกลมใดมากทสดทปรากฎในชดขอมล
• แบรนดโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• รนโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• ความสมพนธระหวางจ านวนแอพพลเคชนในแตละประเภทของแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดากลมผใชมอถอตามการเขาใชงานแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดาอตราการใชงานของผใชมอถอ
จดประสงคของโปรเจค
• เรยนรการใช AWS & Microsoft Azure เพอสราง Instances การท างานแบบ Single Node & Cluster (Lecture: อ.ธนชาต)
• ทราบถงความส าคญของ Big Data และวธการรบมอขอมลขนาดใหญ• การใช Hadoop เพอเกบขอมลเขา HDFS รวมไปถงการดงขอมลโดยใชภาษา
SQL ผานเครองมอ Hive Impala และ SparkSQL• เรยนรการใช Mass Analytics Tools เพอการวเคราะหขอมล แปลงจากขอมล
เปน Knowledge/Discovery (Lecture: อ.โกเมธ) • ทดลองการใช Machine Learning for Business แกปญหาเชงธรกจ • สราง Web-based and Interactive Visualization ดวยภาษา Javascript
เพอสวยงามและสะดวกตอผใชบรการ (Lecture: อ.ชนวทย)
ค าอธบายชดขอมล TalkingData on “Kaggle”
ขอมล Gender_age ประกอบดวย 4 สดมภ 74,645 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน)
ทเปนเฉพาะของผใชแอพพลเคชน • Gender คอ เพศของผใชแอพพลเคชน• Age คอ อายของผใชแอพพลเคชน • Group คอ การจดกลมอายของผใชของแอพพลเคชน
ซงทาง TalkingData จดไวใหแลว
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Phone Brand Device Model ประกอบดวย 3 สดมภ 187,245 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน
เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได
• Phone_brand คอ แบรนดของโทรศพทผใช (ในประเทศจนเทานน) เชน 三星 (Samsung) 美图 (meitu) และ 酷珀 (kupo) เปนตน
• Device_model คอ รนของโทรศพทผใช (ในประเทศจนเทานน) เชน 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2เปนตน
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Events ประกอบดวย 5 สดมภ 3,252,950 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน • Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน
เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได
• Timestamp คอ วนและเวลาของการเขาใชงานแอพพลเคชน• Longitude คอ ลองจจดท TalkingData เกบขอมลไวจากการ
ใชแอพพลเคชนของผใชงาน • Latitude คอ ละตจดท TalkingData เกบขอมลไวจากการใช
แอพพลเคชนของผใชงาน
ค าอธบายชดขอมล TalkingData on “Kaggle”
ขอมล App Events ประกอบดวย 4 สดมภ 32,473,067 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน
สดมภนสามารถรวมกบ Events ได• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ• Is_installed คอ แอพพลเคชนไดรบการตดตงหรอไม (1 คอ
ใช 0 คอไมใช)• Is_active คอ แอพพลเคชนยงคง active อยหรอไมจากการ
เกบขอมลของ TalkingData ณ เวลานน (1 คอใช 0 คอไมใช)
ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล App Labels ประกอบดวย 2 สดมภ 459,943 แถว มค าอธบายตวแปรดงน• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ สดมภนสามารถรวมกบ
App Events ได• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน
ขอมล Label_category ประกอบดวย 2 สดมภ 930 แถว มค าอธบายตวแปรดงน• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน สดมภน
สามารถรวมกบ App Labels ได• Category คอ หมวดหมของแอพพลเคชน เชน game-Game themes,
game-Art Style, Internet Banking และ Romance เปนตน
Vs.
การน าเสนอการวเคราะหขอมล•
•
•
•
•
•
•
• เขาใจกระบวนการเกบขอมลของบรษทโทรคมนาคมมากขน อาจเปนประโยชนตอบรษทในประเทศไทยหากตองการวเคราะหลกคาในรปแบบทคลายกนกบโจทยน
• เขาใจพฤตกรรมของผใชงานแอพพลเคชนวา ตองการแอพพลเคชนประเภทใด ใชชวงเวลาใดของวนและชวงอาทตย จากการวเคราะหพบวา คนเขาใชมอถอในเวลา 11:00 am. และ 11:00 pm. มากทสดและคนเขาใชวนองคารมากทสด จากกราฟเสนของเวลาการใชตามอาทตย ขอมลดงกลาวเปนประโยชนตอนกพฒนาแอพพลเคชนและนกการตลาดทวโลกในการตอบสนอง Demand ของผใช
• แบรนดโทรศพทยอดนยม 3 อนดบแรกไดแก 小米, 三星, และ 华为 และโมเดลโทรศพท 3 อนดบแรกไดแก 红米note, MI 3, และ MI 2S• จากการวเคราะหแผนทของผใชงานแอพพลเคชนท าใหสามารถ Traceback สถานทการใชงานของผใชแอพพลเคชนในแตละกลมตามเพศและอาย
รวมไปถงแบรนดโทรศพทและรนโทรศพทมอถอ• การทดสอบโมเดล Classification พบวาปจจยทส าคญไดแกจ านวนการลงแอพพลเคชน จ านวนการใชแอพพลเคชน จ านวนเหตการณการเขาใช แบ
รนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ • การทดสอบโมเดล Regression พบวาปจจยส าคญไดแก อาย เพศ จ านวนเหตการณการเขาใช แบรนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ
Thank you! Time for Q & A!