大數據分析讀書會🇹🇼
75 subscribers
101 photos
2 videos
1 file
141 links
大數據分析分為數字大數據分析和意向大數據分析,是因應數據特性不同而區分出來的分析法

這頻道即分享大數據分析法的最新觀念、知識及實務應用

要學就學最新的知識和技術

聊天交流群:https://t.me/modellingdata
Download Telegram
2019年12月24日平安夜🎅
我們到了台北醫學大學杏春樓演講

醫學的資料很難是來自常態分配,適合度檢定非常適合用在醫學資料!

吳舜斌的碩士論文運用之前版本的軟體,在健保加值資料中心,非常快速花費兩個半天,完成資料分析!為我國大腸直腸癌免費篩檢的適用對象重新定義,並且證實女性有早發癌症現象!

我們必須實誠地說,正確的分析方法也要有好工具好技術,才能從資料分析出正確的結果。

論文連結🔗 https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/login?o=dnclcdr&s=id=%22105YUST1528002%22.&searchmode=basic

同學們,有個好工具,寫論文輕鬆愉快唷⋯⋯
我們持續的進步中!
書籍提到模擬器、統計檢定、實驗設計、迴歸分析、時間序列分析,還有結合應用,這先讓各位了解大數據分析就是在解構數據,找數據規則,以及精準估計。

數據的數學模型或機率模式都是可以找出來的。
🈺開始營業囉🈺
中華大學2019秋季課程-企業倫理
課程運用意向大數據分析在企業倫理議題的討論,透過問卷調查出的數據進行分析後,可以看到事情的觀感或看法。這符合意向大數據分析的特性。

今天分享的是陳宜君和吳含予同學的作品延伸。他們的企業倫理議題是【大學入學賄賂】事件的社會觀感調查。不過受限於調查的人數不多,所以仍有所不足。但是方法的使用可以讓我們看出一些社會觀感。

方法是在同學的作品架構上,延伸出四層次的貝氏定理分析。

🔗連結:https://telegra.ph/2019F-CHU-BE-02-25
大數據分析方法不只是適用在大數據,將量大且規則亂且雜,難以從中找出規律的資料進行分析,當然也可以適用於小數據上。

需要注意的是使用的自變數會更有限制,也就是迴歸分析基本運算原則。

另外大數據分析方法追求的是精準估計。如果不精準,那也就不需要在意判定係數(R2)或是ANOVA的MSE控制。而且精準估計,才能代表數據特性。

常見的錯誤就是判定係數不到15%,仍用t檢定認為估計值是有效且被值得信任,事實卻是模型配適有問題,估計值沒有意義。
Forwarded from 股市財經資訊頻道
[#台股][#分析][#預測]
難得看到搞趨勢預測的,來推一下!有興趣追蹤的,可以關注一下!
https://youtu.be/FlKPi67UX1M

1. 看完走勢圖,嗯⋯
應證了新冠肺炎疫情和SARS的情況類似,經濟會不好,股市會跌。這次全球都影響,在全球化那麼久之後,都綁在一起,特別是製造業不是在當地生產,很多都將流程切割,分散各地。就像美國製藥原料來自中國一樣。

2. 區間估計還能用在股價指數,這可牛了!
3.原來台股走勢跟上證不同呢!
4. 預測未來五日指數😳,留下來每日觀察比較看看👀
第四週上課用的濃縮兩頁講義分為操作和報表解讀

當我們反反覆覆看著報表習慣後,解讀速度解讀速度就會快,配合圖形了解與報表,反過來還能模擬出數據特性的機率模型


https://www.facebook.com/116876593050551/posts/221833502554859/?d=n
This media is not supported in your browser
VIEW IN TELEGRAM
模擬器運用

為什麼要學習兩個隨機變數的模擬
兩個隨機變數的聯合機率分配圖,可以看出他們之間的關係。
簡單線性迴歸分析中的應變數和自變數可以來自特定分配!如此才能建模!

學習的好處
🈶 學習來自不同分配的隨機變數組成聯合機率分配關係
🈶 學習比較獨立兩個隨機變數來自不同分配所形成不同聯合機率分配圖(協調合作+觀察他人作品)

12位同學自行搭配不同的機率分配,學習如何模擬出聯合機率分配的操作成果
#學生作品 #模擬器訓練 #一個母體分配

在分析數據之前,模擬器是幫助同學取得特定來源數據的方法。

所以從一個母體分配的模擬開始認識常用的機率分配,了解不同分配受到參數影響會發生怎樣的改變。

https://www.facebook.com/116876593050551/posts/235140587890817/?vh=e&d=n

大數據分析學習不是一時的,而是需要長期觀看數字的變化,從而知道參數變化影響機率分配。這對學習者而言是無趣的,但也是有趣的,因為你正在做「比一比」的遊戲,找出差異。
#學生作品 #線性迴歸 #應用
#股市分析 #新冠肺炎疫情

他們使用英國金融時報指數,分析從2020年初到3月的均值(斜率)走勢以及風險走勢。

你從不知道疫情如何影響股價指數,那麼同學們的分析可以幫助你理解。

https://www.facebook.com/116876593050551/posts/235453994526143/?vh=e&d=n

你以為很難?不!其實是你沒有工具!好的工具可以讓你很快分析出需要的資訊,而且是精準分析,不是粗略分析或估計。

我的學生學到最新技術,也獲得最新的知識。在全球,他們即使只是大二學生,但在這方面遠超過Dr.,因為那些人從未見過與學習過!
我不講大數據,因為那太粗糙!真正的精髓在於分析法!

你的分析法還在敘述統計的係數?平均數、中位數和變異數?

我的學生直接將數據的平均數,或中位數,或標準差建立抽樣分配了!成為機率模式!

你的分析方法還在線性迴歸分析嗎?

我的學生已經可以完成非線性模式和曲線估計,甚至組合函數也可以。這只是為了精準分析!解釋數據意涵,非人為認定的模式!

你做迴歸分析還是在說檢定斜率和截距嗎?

我的學生已經將整個迴歸建成機率模式!

你也可以學習分析法,因為教科書就是「統計學不能做為大數據分析的工具」!適合自學使用!如果你想學程式,光碟內也有程式碼,提供個人學習。

如果你需要授課,使用這個教科書,非常容易教學應用。由大量的數據中找出數字關聯或是建立係數的抽樣分配!

即使你是其他專業課程老師,一樣可以讓學生使用此書的分析方法,跑數據後做期末報告。

建模技術和分析方法,不是侷限特定學科,而是只要有數據就能建模或分析。
This media is not supported in your browser
VIEW IN TELEGRAM
這是連結 https://t.me/bigdatasimulator/47 的gif。在粉絲專頁的影片會比較清晰😄
你也做得到喔!
另外軟體每次跑,都會生成每20個交易日的估計線圖,可以製成動態圖,明顯看到斜率的變化。
當線性模型不足以估算數據規律時,你得考慮兩種情況
1. 你設定的模式不符合數據規律
2. 你認為模式正確但變異數異質性或自我相關的存在

上方的圖片是學生製作的第一個理由。如果線性模式不合適時,改用非線性的結果。非常輕易地用軟體跑出來,挑出上課的重點解讀數據!

他們在做這份練習時,主要的要點有三
1. 如何跑軟體
2. 如何抓報表重點
3. 比對線性和非線性的差異

#大數據分析系列
#數字大數據分析系列
#學生作品系列
#非線性模式系列
#大數據 #大數據分析 #bigdata #bigdataanalytics #teachingandlearning
This media is not supported in your browser
VIEW IN TELEGRAM
當線性模型不足以估算數據規律時,你得考慮兩種情況
1. 你設定的模式不符合數據規律
2. 你認為模式正確但變異數異質性或自我相關的存在

上方影片是中華大學財管系的大二學生作品。使用軟體以
1️⃣非線性模式、2️⃣非線性模式+考慮自我相關、3️⃣非線性模式+考慮變異數、4️⃣非線性模式+考慮變異數+考慮自我相關,分析選擇的股價走勢。其中可以發現有些股價的變異數異質性是不需要考量的,但自我相關仍存在!

#大數據分析系列
#數字大數據分析系列
#學生作品系列
#非線性模式系列
#變異數異質性 #heteroskedasticity
#自我相關 #自動相關 #autocorrelation #serialcorrelation
#大數據 #大數據分析 #bigdata #bigdataanalytics #teachingandlearning
若有需要合作課程或講座,可以私訊至http://www.facebook.com/meiyulee.tw/
——
大數據分析學習常見的狀況

Q: 要寫程式嗎?
A: 很多沒有資訊背景或專業的同學們在學習自己專業的課程時就已經需要花費很多時間,所以不需要寫程式,直接軟體運算就能幫助學生達到精準分析!

Q: 我需要重新學習理論嗎?
A: 不需要的!我所推廣的大數據分析法是根據商學和管理背景的大學教育為基礎,是直接銜接現有教育,並且分析結果的報表會顯示數學模式與統計檢定數值,每個運算階段結果都會出現,適合自我學習,也適合教學使用。

Q: 基礎不好也能學習嗎?
A: 這套大數據分析法是基於高中的方程式和多項式基礎、統計學基礎,並且軟體工具協助運算。所謂好工具在手,加上大數據分析和精準觀念、會解讀報表結果,同學們一樣可以安心學習👍
技術層次分兩種,一種是程式技術,另一種是分析層次。這兩者之間是相輔相成。我們在分析技術的發展中需要程式幫助運算與驗證。通過測試,已經在報表與圖形上判斷整個分析法的正確性與可改善處。

分析層次不會是憑空而來,而無法提升的原因就是過去的理論斷點!例如,那些斷點造成估算限制,轉彎變成用其他方法替代,例如二分法的假設檢定。那麼有意思的事情是,數字連續性就會需要做無窮多次的檢定,這是人力和電腦都做不到的。所以退而求其次,做有限多次,以逼近法去找到。但估算方程式是不能用檢定取代的,於是這成為斷點之一。

程式輔助分析,分析因程式得以進步而非退步,反而應將過去理論斷點找到,降低現在持續使用二分法的情況。

那麼二分法在做什麼呢?確實人工智能或人工智慧的判定原則可以是二分法。如果單單使用二分法其實未必適用所有狀況!所以我們還能使用「最適理論」的極大或極小值,或是尋找中位數或分位數等,都是判定用的方法。

例如尋找分位數,你就需要排序,算頻率,這等同是在找機率分配!而機率分配就是種機率模式,幫助我們定位來源特性,這也就是為什麼學習模擬器的重要原因,還能幫你建模!(參考防疫期間,美日台韓的每日確診人數建模影片)

這延伸出你要用怎樣的方法分析出什麼。一般我們希望先將數字規律抓住!愈精確愈好,然後再從追蹤過程發現變化規律,進而形成系統性的指標訊號!(參考防疫期間,台的第二波每日確診人數建模影片)

所以學習大數據分析或人工智能分析,總要有一套分析法,然後我們再以程式結果驗證。至於那一套的分析法將會結合機率論、統計學、數學、數值分析、亂數表、模擬器等。

高中生可以在學習高中數學時同時學習用程式做輔助。在粉絲專頁【高中數學與程式】是一個很好的學習機會。除了高中生外,大學生或非資訊類學生都能夠學習,特別是

高中數學第二冊學會可以寫統計套裝軟體!自己寫數學程式,自己寫統計套裝軟體,你要自己怎麼分析數據就能自己寫。

加上使用的是最接近機器語言的C語言,跑大量數據速度快過所有程式語言。所以獨立執行檔能夠讓你依據需要使用。

學習不是停擺,斜槓變成常態。跨領域是未來,但要落實就從現在!
This media is not supported in your browser
VIEW IN TELEGRAM
#學生作品 即使是統計學的一類因子分析(實驗設計、變異數分析),一樣可以做出非常棒的結果!

1️⃣ 可以檢定多個平均數差異
2️⃣ 可以檢定多個變異數差異
3️⃣ 可以做事後檢定
4️⃣ 配合圖形與數據報表結果,可以判定排序結果
20200425製作
大數據分析法應用在疫情監測,其結果分出8個疫情階段,突破現行公共衛生傳染病的每日確診人數模型。

https://www.instagram.com/p/B_aSeY5n59t/?igshid=1nq7jyxrfxy3h
做完大數據分析等於完成大部份的精準分析,接著你會需要的是預測。可參考這篇文章:https://myleetw.blogspot.com/2020/06/blog-post_23.html
或是李老師公開測試股市分析預測的【LEE統計談股市】YouTube頻道影片。目前此公開測試已經結束。能夠做預測的軟體,在市面上幾乎沒有看過,通常都是屬於客製化軟體,甚至是秘而不宣。若有販售或代售,在台灣算是天價存在。

李老師的文章中點出一些正在做數據分析時容易遭遇到的問題,或許會有些幫助,提供各位朋友們參考。