目標與達成狀況
目標一、閱讀二篇論文
完成日:1/13
執行狀況:閱讀了兩篇與研究方向有高度相關的論文。在閱讀過程想起學校老師提過,看論文有時候他們也不會整篇從頭到尾看懂。因此提醒自己不要執著在一次理解全部內容,應該先通篇理解作者的目的、使用技術的概念,並且同時思考內容是否有自己可以引用的地方。
不只紀錄這兩篇論文可引用的環節,也同時在搜尋論文的過程建立參考可能性的分類,雖然只是自己用感覺來判斷分類,但這幾次在查找資訊時,有逐漸展現出分類的效果,能快速找到所需資訊。尤其找到可引用的地方就會感覺論文進度又向前邁進一點點。
目標二、技術學習
完成日:1/7
執行狀況:透過Coursera學習平台,完成一堂Tensorflow的課程。跟著課程實際執行了基本的分析流程,包含利用愛爾蘭傳統詩歌建立的corpus來預測下一個字出現的幾率以及透過新聞內容分類BBC新聞類型。認識了Tensorflow在處理模型的一些指令,對Corpus如何建立以及背後的數學含義有更進一步認識。
論文整體進展
雖然上期提到資料量仍不足,需要多點再開始進行,但當中還缺少的其中一個技術,剛好在這期的課程中提到了,加上論文的內容,可以幫助自己開始思考要運用哪種模型,並且利用Tensorflow去建立。
然而還有一件需要注意的事情就是資料的前處理。目前都是手動搜集資料,資料狀態還非常的「生」,以食物來說大概就是,想做一道薑母鴨,但是鴨子才剛抓到手上,還在呱呱叫一樣。
以各個部分來看,資料量來到2200筆,有預計要使用的模型,文字分析技術和整理成corpus已有初步概念,而資料處理預計在開始執行的時候會有眉目。
收穫與感想
一、《Input 最高學習法》的收穫
《Input最高學習法》的作者是日本知名精神科醫師以及作家樺澤紫苑。這本書每篇都只有少少的量,可能一分鐘就能讀完,現在每天早上讀兩篇到四篇,有近期兩個特別有收穫的內容。
- 先閱讀高品質的內容,再提升閱讀量:這個概念應用在論文的搜集上,盡可能多找與自己論文相關並且是知名期刊來源的,並且技術、數據集、研究方法也就可能相近。剛開始的確很吃力,但這樣的論文多讀幾篇後,就會開始對相關類型的論文形成一種直覺,並有助於判斷是否對自己的論文有幫助。
- 以輸出為前提:這能刺激身體分泌正腎上腺素,強化專注力與記憶力,對於學習新技術非常有幫助。光是想像怎麼與朋友分享,自己就會開始組織所學的內容,像是自己正在講這些內容一樣。而這就會幫助自己更好地去認識所學內容。
二、實際執行模型感受
在實際跑過大量資料之前,很難想像所謂訓練一個模型可能要跑好幾天是什麼意思。而透過課程實際地跑16000筆資料過後才感受到,光是這樣的資料量,而且還不算複雜的模型就要將近一小時,何況當資料量是十倍,或是模型複雜很多倍的情況。
有這個認知,對於整體論進度規劃會有不同的看法,並且也更體會到,可能無法資料都搜集並且整理乾淨了才開始做模型。這或許有點類似產品開發的最小可行產品(MVP)的概念,先試著做出一個版本,會更加清楚重點以及需要修正的地方。