概率圖模型是在概率模型的基礎(chǔ)上,使用了基于圖的方法來表示概率分布,是一種通用化的不確定性知識表示和處理方法,在人工智能、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺等領(lǐng)域有廣闊的應(yīng)用前景。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-10-14 |傳智播客 |大數(shù)據(jù)概率圖模型
我們都參加過高考,據(jù)統(tǒng)計(jì),高考的物理成績確實(shí)與數(shù)學(xué)成績有一定關(guān)系,但除此之外,還存在很多影響物理成績的因素,例如:是否喜歡物理,用在物理上的時(shí)間等。而當(dāng)我們主要考慮數(shù)學(xué)成績對物理的影響時(shí),就是要考察這兩者之間的相關(guān)關(guān)系。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-10-10 |傳智播客 |SparkMllib如何解決回歸問題
基于Flume設(shè)計(jì)實(shí)現(xiàn)分層日志收集系統(tǒng),到底有什么好處呢?我們可以先看一下,如果不分層,會帶來哪些問題: 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-10-10 |傳智播客 |Flume分層日志收集系統(tǒng)
在SparkMllib中主要分為特征抽取、特征轉(zhuǎn)化、特征選擇,特別是在特征轉(zhuǎn)化方面是從一個(gè)DataFrame轉(zhuǎn)化為另外一個(gè)DataFrame,在數(shù)值型數(shù)據(jù)處理的時(shí)候我們對機(jī)器學(xué)習(xí)數(shù)據(jù)集中的樣本和特征部分進(jìn)行單獨(dú)的處理,這里就涉及對樣本的正則化操作和數(shù)值型特征的歸一化和標(biāo)準(zhǔn)化的方法,今天就帶大家理解這一部分的思考和認(rèn)識。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-18 |傳智播客 |SparkMllib數(shù)值型特征
Producer攔截器(interceptor)是在Kafka 0.10版本被引入的,主要用于實(shí)現(xiàn)clients端的定制化控制邏輯。對于producer而言,interceptor使得用戶在消息發(fā)送前以及producer回調(diào)邏輯前有機(jī)會對消息做一些定制化需求,比如修改消息等。同時(shí),producer允許用戶指定多個(gè)interceptor按序作用于同一條消息從而形成一個(gè)攔截鏈(interceptor chain)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-17 |傳智教育 |kafka自定義攔截器教程
Hadoop的MapReduce來源于Google公司的三篇論文中的MapReduce,其核心思想是“分而治之”。Map負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個(gè)“簡單的任務(wù)”來并行處理??梢赃M(jìn)行拆分的前提是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒有依賴關(guān)系。Reduce負(fù)責(zé)“合”,即對map階段的結(jié)果進(jìn)行全局匯總。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-16 |傳智播客 |MapReduce編程原理
Kafka是什么?Kafka最初由LinkedIn開發(fā),是一款基于分區(qū)、多副本的分布式控制器,基于ZooKeeper協(xié)調(diào)。它最大的特點(diǎn)是能夠?qū)崟r(shí)處理大量數(shù)據(jù),滿足各種需求場景:如基于hadoop的批處理系統(tǒng)、低延遲實(shí)時(shí)系統(tǒng)、storm/spark流媒體引擎、web/nginx日志、訪問日志、消息服務(wù)等,采用scala語言編寫。LinkedIn在2010貢獻(xiàn)了Apache基金會,并成為頂級開源項(xiàng)目。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-16 |傳智播客 |Kafka api
正則化是廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的技術(shù),它可以改善過擬合,降低結(jié)構(gòu)風(fēng)險(xiǎn),提高模型的泛化能力,有必要深入理解正則化技術(shù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-12 |傳智播客 |正則化是什么
北京校區(qū)