樓主: 資料狂人
6527 15

[學科前沿] Python做數據分析-簡潔、易讀、強大 [分享]

VIP管理員

泰斗

69%

還不是VIP/貴賓

-

威望
9
論壇幣
986597788 個
通用積分
25971.8224
學術水平
4496 點
熱心指數
3270 點
信用等級
3509 點
經驗
562328 點
帖子
7666
精華
142
在線時間
13692 小時
注冊時間
2010-3-18
最后登錄
2019-10-16

初級熱心勛章 初級學術勛章 中級學術勛章 中級熱心勛章 初級信用勛章 中級信用勛章 高級學術勛章 高級熱心勛章 高級信用勛章 特級信用勛章 特級學術勛章

樓主
資料狂人 在職認證  發表于 2017-10-12 09:12:24 |只看作者 |倒序

使用過Python的用戶都會被其簡潔、易讀、強大的庫所折服,其pythonic語言特性,對人極其友好,可以說,一個完全不懂編程語言的人,看懂python語言也不是難事。


在數據分析和交互、探索性計算以及數據可視化等方面,相對于R、MATLAB、SAS、Stata等工具,Python都有其優勢。近年來,由于Python庫的不斷發展(如pandas),使其在數據挖掘領域嶄露頭角。結合其在通用編程方面的強大實力,我們完全可以只使用Python這一種語言去構建以數據為中心的應用程序。


由于python是一種解釋性語言,大部分編譯型語言都要比python代碼運行速度快,有些同學就因此鄙視python。但是python是一門高級語言,其生產效率更高,時間通常比CPU的時間值錢,因此為了權衡利弊,考慮用python是值得的。


Python強大的計算能力依賴于其豐富而強大的庫:

Numpy

Numerical Python的簡稱,是Python科學計算的基礎包。其功能:

1. 快速高效的多維數組對象ndarray。

2. 用于對數組執行元素級計算以及直接對數組執行數學運算的函數。

3. 線性代數運算、傅里葉變換,以及隨機數生成。

4. 用于將C、C++、Fortran代碼集成到Python的工具。

除了為Python提供快速的數組處理能力,NumPy在數據分析方面還有另外一個主要作用,即作為在算法之間傳遞數據的容器。對于數值型數據,NumPy數組在存儲和處理數據時要比內置的Python數據結構高效得多。此外,由低級語言(比如C和Fortran)編寫的庫可以直接操作NumPy數組中的數據,無需進行任何數據復制工作。


SciPy

是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包:

1. scipy.integrate:數值積分例程和微分方程求解器。

2. scipy.linalg:擴展了由numpy.linalg提供的線性代數例程和矩陣分解功能。

3. scipy.optimize:函數優化器(最小化器)以及根查找算法。

4. scipy.signal:信號處理工具。

5. scipy.sparse:稀疏矩陣和稀疏線性系統求解器。

6. scipy.special:SPECFUN(這是一個實現了許多常用數學函數(如伽瑪函數)的Fortran庫)的包裝器。

7. scipy.stats:標準連續和離散概率分布(如密度函數、采樣器、連續分布函數等)、各種統計檢驗方法,以及更好的描述統計法。

8. scipy.weave:利用內聯C++代碼加速數組計算的工具。

注:NumPy跟SciPy的有機結合完全可以替代MATLAB的計算功能(包括其插件工具箱)。


SymPy

是python的數學符號計算庫,用它可以進行數學表達式的符號推導和演算。


pandas

提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。

pandas兼具NumPy高性能的數組計算功能以及電子表格和關系型數據庫(如SQL)靈活的數據處理功能。它提供了復雜精細的索引功能,以便更為便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操作。

對于使用R語言進行統計計算的用戶,肯定不會對DataFrame這個名字感到陌生,因為它源自于R的data.frame對象。但是這兩個對象并不相同。R的data.frame對象所提供的功能只是DataFrame對象所提供的功能的一個子集。也就是說pandas的DataFrame功能比R的data.frame功能更強大。


matplotlib

是流行的用于繪制數據圖表的Python庫。它最初由John D. Hunter(JDH)創建,目前由一個龐大的開發人員團隊維護。它非常適合創建出版物上用的圖表。它跟IPython(馬上就會講到)結合得很好,因而提供了一種非常好用的交互式數據繪圖環境。繪制的圖表也是交互式的,你可以利用繪圖窗口中的工具欄放大圖表中的某個區域或對整個圖表進行平移瀏覽。


TVTK

是python數據三維可視化庫,是一套功能十分強大的三維數據可視化庫,它提供了Python風格的API,并支持Trait屬性(由于Python是動態編程語言,其變量沒有類型,這種靈活性有助于快速開發,但是也有缺點。而Trait庫可以為對象的屬性添加檢校功能,從而提高程序的可讀性,降低出錯率。) 和NumPy數組。此庫非常龐大,因此開發公司提供了一個查詢文檔,用戶可以通過下面語句運行它:

>>> from enthought.tvtk.toolsimporttvtk_doc

>>> tvtk_doc.main()


Scikit-Learn

是基于python的機器學習庫,建立在NumPy、SciPy和matplotlib基礎上,操作簡單、高效的數據挖掘和數據分析。其文檔、實例都比較齊全。


五一北京基于Python的數據分析現場班

三天的課程力圖結合不同案例講授數據分析領域基本知識。

這門課使用python作為載體, 結合理論知識進行實際操作, 使學生不僅理解數據分析的基本方法, 同時掌握使用python的基本實際計算技能。

培訓時間2018年4月29-5月1日 (三天)
培訓地點北京市海淀區丹龍大廈附近
授課安排上午9:00至12:00; 下午1:30至4:30; 答疑
培訓費用3000元 / 2600元 (僅限全日制本科生及碩士研究生優惠價);食宿自理

我要報名

Python講師介紹:

張忠元, 2008年在中科院數學與系統科學研究院獲理學博士學位,現任中央財經大學統計學院教授,博士生導師,也是中國計算機學會高級會員、果殼網科學顧問。主業是數據分析, 尤其是復雜網絡分析,主要講授回歸分析、運籌學、數學分析等課程。
主要研究興趣在復雜網絡分析和數據挖掘. 在Data Mining and Knowledge Discovery, Physical Review E, EPL, Knowledge and Information Systems, Scientific Reports, 中國科學等國內外著名期刊上發表學術論文十余篇。
愛思唯爾杰出審稿人, 擔任Data Mining and Knowledge Discovery, Physica A, Management Science等著名期刊的匿名審稿人。


Python課程導引:

近年來公眾越來越關注大數據和數據分析,隨著互聯網和人工智能的快速發展,許多問題都可以通過數據分析加以研究, 為決策提供更堅實的依據.

本次三天的課程力圖結合不同案例講授數據分析領域基本知識.

這門課使用Python作為載體,結合理論知識進行實際操作,使學生不僅理解數據分析的基本方法,同時掌握使用Python的基本實際計算技能.   

在內容的安排上,我們遵循由淺入深,循序漸進的思路,結合實際應用展開講解.

內容包括python的基本用法、有監督學習、無監督學習、關聯規則、特征工程、推薦系統、時間序列分析、孤立點探測、回歸和方差分析、復雜網絡分析和數據可視化.  


優惠:

現場班老學員9折優惠;
同一單位3人以上同時報名9折優惠;
折扣優惠不疊加。


報名流程:
1:點擊“我要報名”,網上填寫信息提交;
2:給予反饋,確認報名信息;
3:進入結算中心,通過訂單支付;
4:開課前一周發送課程電子版講義,軟件準備及交通住宿指南。


聯系方式:

魏老師

QQ:28819897142881989714

Tel: 010-68478566

Mail:vip@pinggu.org





stata SPSS
沙發
資料狂人 在職認證  發表于 2017-10-12 09:12:25 |只看作者
Python課程大綱:

第1講(3小時)

Python編程基礎知識, 包括基本數據類型, 基本編程結構, 函數, 腳本文件, 數據分析的常用模塊.


第2講(3小時)

有監督學習, 包括kNN方法, 支持向量機, 隨機森林和神經網絡.

無監督學習, 包括kmeans, 譜聚類, DBSCAN, 非負矩陣分解和雙聚類.

關聯規則.


第3講(3小時)

特征工程,包括特征選擇和特征提取.

推薦系統.

時間序列分析.

孤立點探測.


第4講(3小時)

統計學的基本思想和常見誤用.

描述性統計.

回歸和方差分析.

非參數統計.

數據可視化.


第5講(3小時)

復雜網絡分析,包括復雜網絡的建模、復雜網絡的拓撲結構分析和復雜網絡的功能分析.


第6講(3小時)

案例:通過對包括美國肥胖數據分析、信用卡欺詐數據分析、英超賽季表現分析和臉書社交數據分析等至少四個案例的講解綜合展示數據分析方法的使用.




回復

使用道具 舉報

藤椅
資料狂人 在職認證  發表于 2017-10-12 09:14:59 |只看作者
歡迎大家報名參加
回復

使用道具 舉報

板凳
ccmchy 在職認證  企業認證  發表于 2017-10-12 10:36:30 |只看作者
謝謝分享
回復

使用道具 舉報

報紙
warking 發表于 2017-10-12 12:54:16 |只看作者
謝謝分享
回復

使用道具 舉報

地板
皙華 發表于 2017-10-12 14:27:51 |只看作者
真好!謝謝!
回復

使用道具 舉報

7
aibieli731001 發表于 2017-10-12 15:01:42 |只看作者
多謝樓主提供資訊
回復

使用道具 舉報

8
有個人1961 發表于 2017-10-12 15:28:08 |只看作者
學python好還是r好?
回復

使用道具 舉報

9
studyalert 學生認證  發表于 2017-10-12 19:54:51 |只看作者
Good content. Thanks for sharing.
回復

使用道具 舉報

10
shifeng758 發表于 2017-10-12 21:50:35 |只看作者
看看快快快快快快快快快快快
回復

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 我要注冊

京ICP備16021002-2號 京B2-20170662號 京公網安備 11010802022788號 論壇法律顧問:王進律師 知識產權保護聲明   免責及隱私聲明

GMT+8, 2019-10-18 16:55
FUN88电竞