BIG DATA
2
BIG DATA
Big DataVeloci
tyVolum
e
Vari
ety
Just in time decision making
ANALYTICAL GOAL
Insight
Agile
New
تغییر فرآیند
اکوسیستمهای تغییرسازمانی
سهولت نوآوری
New Business Model
ANALYTICAL REQUIREMENTS
Conventional BIBig Data Analyticsمدلسازی
دقیق
های گزارشاستاندارد
ساخت یافته
درک حجم
شکل
سرعت تغییر
غیرساخت یافته
سازی مدلنادقیق
کاهش جابجایی
های توانایی از استفادهموجود
به توجهامنیت
Business Driver
افزایش درآمد
کاهش هزینه
تجربه بهبودمشتری
بهره افزایشوری
KEY TRENDSهای داده حجم افزایش
شده ذخیرهسریع شتاب
داده رشدرشد
خروج/ ورودیی
رشد گوناگونی
یابی دست های روشهمزمان
برای تقاضا ظهورآنی یکپارچگی
BUSINESS OPPORTUNITY
شدت رقابت
داده نوین انواعای
و کسب های داده حجمmکاری
ارزش های زنجیرهمنظم کامالْ
روزمره عملیاتفروش
اعتقاد سنجشمشتری
BUSINESS OPPORTUNITYSource: Big data and advanced analytics survey 2015; Volume I by Evans data
corporation
OPPORTUNITY/ THREATS
Competition
حسگرها
تجهیزات ارتباطی
کاربردهای تحلیلی
اطالعات کارهای و کسبمحور
فاکتور New Digital Gapکلیدی
تر اهمیت با الگوریتم از داده است
Human Resource
ADAPTATION
BIG DATA ADAPTATION
Adaptationمنحنی شیب
انطباق
عمر چرخه در تغییرداده
زیرساخت موجود
های گذاری سرمایهفعلی
و اندازهدوره
رویکرد داده
پایداری
امکانپذیری
ارزش
یکپارچه قابلیتعقالنیسازی
ت
BIG DATA APPLICATION
Analytical Applicationتحلیل و کاوی اجتماعی داده های شبکه تحلیل
چهره شناسایی
پروفایل تطابق متن تحلیل
رفتار تحلیل
تقلب کشف
مقیاس بزرگ اندک تحلیل ورود موانع
Application DevelopmentData Management
Platform
Resources
گلوگاه دادهگلوگاه محاسبه
بسیار حجم زیاد
گوناگونی توجه قابل
اجرای سودمندیموازی
DECISION ASPECTS
APPLICATION CONT…
Dispatching MonitoringFraud Detection
ProfilingClusteringگوناگونی
داده
Recommendation Systems
موازی اجرای
Price Modellingگلوگاه محاسبه
داده حجم
USEFULNESS CRITERIA
Harmony
سازمانی
و کسب چالشکاری
ارزش
VALUE ACQUISITION
Valueافزایش
درآمد
کاهش هزینه
وری بهره افزایش
کاهش مخاطره
VALUE ACQUISITION CONT…
Questionsبیانیه ارزش
عملیاتی سازی
BIG DATA VALUE CHAIN
درک فرصت
Valueتعریف
انتظاراتساخت نمونه
مدیریت و کسبمنابع
مدیریت ارزیابی برنامه و محیط توسعه به مهاجرت
تولید
ARCHITECTURE
BIG DATA COMPONENTS
DBMS
Acquisition
توزیع های فایل سیستمشده
های انبارهارزش/ کلید
NoSQLقابل اعتماد
امن
مدیریت شده
منعطف
تخصصی شده
Organize
استخراتغییر ج
شکل
بارگزاری
Analyse
BIG DATA COMPONENTS CONT…
Componentsفضای
سازی ذخیرهپلتفورم محاسباتی
توسعه چارچوبافزار نرم
بندی بسته ابزارهایشده
مدیریت ابزارهایفرآیند
مدیریت محیطداده
BIG DATA COMPONENTS CONT…
Storageپذی مقیاسری
پذیر توسعهی
دسترس پذیری
تحمل خطا
خروجی/ ورودیسریع
قابلیت یکپارچگی
BIG DATA COMPONENTS CONT…
Platformچیز همه اشتراک
چیز هیچ اشتراک سخت تجهیزmافزاری
افزاmری نرم تجهیز
های گرهمحاسباتی
سریع شبکه
موازی داده اجرای میزان اندازهحافظه
ای داده ساختار
BIG DATA COMPONENTS CONT…
Row Base
عملکرد دسترسی
و الحاقتجمیع
فشرده سازی
Column Baseو الحاقتجمیع
فشرده سازی
بارگزاری
Data Management
BIG DATA COMPONENTS CONT…
Databaseکلید/ارزش
مستند محور
جدول محور
شی گرا
گراف محور
Data Management
BIG DATA COMPONENTS CONT…
Software Development Framework
توسعه
اجرا
آزمون
زمانبندی
پیکربندی
مقیاس پذیر
اجرای موازی
های ابردادهشده غنی
BIG DATA COMPONENTS CONT…
Packaged Analytical Tools
های تحلیلپذیر مقیاس
داده کاوی
آمار
هوش مصنوعی
دسترسی
BIG DATA COMPONENTS CONT…
Process Managementراه حل
زیرساخت
توسعه دهندگان
تحلیل گران
CONCEPTUAL MODEL
سازی ذخیره فضای
داده پایگاه مدل
پردازشی پلتفورم
/ پردازشی دسترسی ابزارهای
فرآیند مدیریت
SOLUTION
APACHE SOLUTION
HDFS (Redundant, Reliable Storage) Hbase (Column base DB)
MapReduce V1 (Cluster mng)
Hive (SQL) Pig (Data Flow) Sqoop (ETL)Mahout (Machine Learning)
Oozie (Workflow) Chukka (Monitoring)Flume (Monitoring)
Zookeeper (Management)
YARN (Cluster mag)
MapReduce V2 (Batch Parallel Processing)
Spark (In Memory Processing)
HADOOP DISTRIBUTED FILE SYSTEM
HDFS
HPA
بسیار فایلهایبزرگ
های بخشکوچک
Name Node
Dat
a N
ode
ابرداده
Temp File
سلسله مراتبی
Fault Tolerate
نبض
سازماندهی داده
مدیریت یکپارچگی
تصاویر ای لحظه
HDFSIncoming File
HDFS Client
B1 B2 B3
NameNode n1
n2
n3
n4
Rack 1
n1
n2
n3
Rack 2
n4
n1
n2
n3
Rack 3
n4
Complete
B2B3
B1
B1
B1
B2
B2
B3
B3
MAPREDUCE
MapReduceمدیریت برنامه وظایف اجرایی مدل
نویسیسلسله مراتبی
پایش پیشرفت
موازیمتوالی
Commander
تخصیص وظایف
تخصیص منابع
Map
کلید ساختارارزش
سازی ذخیرهمحلی
مستقل
کار و کسباولیه
Reduce
توزیع فایل خواندشده
تجمیع نتایج
MAPREDUCEData Types
Map
Reduce
Input
Output<K1,V1
>List(<K2,V2>
)
<K2,List(V2)> List(<K3,V3>)
استقالل دادگان
استقالل پردازش
MAPREDUCE(THE SHUFFLE)
MapP1
P2input
MapP1
P2input
ReduceP1
P1Merg
e
ReduceP2
P2Merg
e
Shuffle
MAPREDUCE
ACBDB
(0,A)(1,C)(2,B)(3,D)(4,B)
(A,1)(C,1)(B,1)
(D,1)(B,1)
(A,[1])(B,[1,1])
(C,[1])(D,[1])
(A1)(B,2)(C,1)(D,1)
Input <K1,V1>
Map1
Map2
Shuffle Reduce
List(<K2,V2>) <K2,List(V2)> List(<K3,V3>)
Job Tracker
Client
Task Tracker
Task Tracker
Name Node
Data Node
Data Node
Data Node
Data Node
HADOOP
YARNو داده محلی هم الزام
پردازش
همه تطابق عدمکاربردها
تعداد بودن ثابتها گره
RestrictionsYet Another Resource Negotiate
SPARKسرعت
باال
سهولت استفاده
روی بر اجراYARN
Sparkدرون حافظه
عمومیت
فراگیری اجرا
BUSINESS INTELLIGENCE
ANALYTICS
BI&A
BI&AIII
BIG DATA MINING TOOLS
Mahout
S4
Storm
MOA
تحلیلی ابزار
METHODOLOGY
BODHTREE
Methodology
مورد کاربرد
چشم انداز
طرح اولیه
فن شناختآوری
نقشه راه
طراحی حل راه
REFERENCEShttp://www.bodhtree.com/http://www.bodhtree.com/resources.phphttps://cwiki.apache.org/confluence/display/ZOOKEEPER/ProjectDescriptionhttps://zookeeper.apache.org/doc/trunk/zookeeperOver.htmlhttp://oozie.apache.orghttp://www.aptude.com/blog/entry/hadoop-vs-mongodb-which-platform-is-better-for-handling-big-datahttp://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/http://stackoverflow.com/questions/31044575/mapreduce-2-vs-yarn-applicationshttp://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-scienceOracle. (2012). Oracle: Big Data for the Enterprise. Oracle white paper.Oracle. (2013). Big Data Analytics; Advanced Analytics in Oracle Database. WWW.Oracle.com.Gartner. (2014). www.gartner.com.Brown, B., Chui, M., & Manyika, J. (2011). Are you ready for the era of ‘big data’? McKinsey quarterly.Manovich, L. (2011). Trending: The Promises and the Challenges of Big Social Data. Debates in the Digital Humanities. Minneapolis: University of Minnesota Press.Boyd, D., & Crawford, K. (2011). Six provocations for Big Data. Symposium on the Dynamics of the Internet and Society (pp. 1-17). London: Oxford Internet Institute.Bughin, J., Chui, M., & Manyika, J. (2010). Clouds, big data, and smart assets: Ten tech-enabled business trends to watch. McKinsey Quarterly, 1-14.Bitterer, A. (2011). Hype Cycle for Business Intelligence. Gartner Inc.Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS Quarterly, 1165-1188.Dean, J., & Ghemawat, S. (2004). MapReduce: simplified data processing on large clusters. OSDI, 137-150.Tankard, C. (2012). Big data security. Network Security, 5-8.Rothnie Jr, J. B., Bernstein, P. A., Fox, S., Goodman, N., Hammer, M., Landers, T. A., et al. (1980). Introduction to a System for Distributed Databases. Database System, 1-17.Dewitt, D. J., Ghandeharizadeh, S., Schneider, D. A., Bricker, A., Hsiao, H. I., & Rasmussen, R. (1990). The Gamma Database Machine Project. IEEE Transaction on Knowledge and Data Engineering, 44-62.Loshin, D. (2013). Big data analytucs; from strategic planning to enterprise integration with tools, technigues, NoSQL, and graph. Morgan Kaufmann.Leskovec, J., Rajaraman, A., & Ullm, J. D. (2014). Mining of Massive Datasets. Cambridge University Press.Sawant, N., & Shah, H. (2013). Big data application, architecture Q&A. Apress.
Definition
Adaptation
Architecture
Solutions
Analytics
Methodology