目標與達成狀況
目標一、閱讀二篇論文
完成日:未達成
此次閱讀目標為:
- 【The Resume Corpus: A Large Dataset for Research in Information Extraction Systems】
- 【Building a Corpus for Personality-dependent Natural Language Understanding and Generation】
達成1.5篇,僅讀完1,而2只閱讀接近一半。
目標二、資料搜集
完成日:1/28
執行狀況:從事前端工程師的朋友,協助解析網頁架構(這段就是我自己較難以執行的部分),找出request的url後,使用python做爬蟲,最後寫成迴圈去爬取,並且特別注意要避免被當成惡意攻擊而加上暫停。
即使每筆資料爬取中間,因為加上1~3秒不等的暫停時間,而導致九千筆的增加約2.5~7.5小時的時間,但仍然比之前自己手動抓取資料快的多。僅僅一個晚上,資料就抓取完畢。
目標三、技術學習
完成日:未達成
原訂閱學習目標
論文整體進展
接續上期所提到的目標,完成資料爬取與初步清理,包含刪除重複資料以及整理出特定欄位。
爬取總共9230筆資料,忽略部分異常實際爬取共8728筆,經過刪除重複的還有5617筆。第一次做重複資料篩選的時候,還沾沾自喜認為進度挺快的,但看看剩下大約1300筆的資料,認為不太對勁,又花了一些時間正規表達(Regular Expression),才得以篩選出合理的資料。
目前5617筆的資料已經有識別資訊和文本資訊,預估刪除一些文本資訊不合格的資料後還能有3000筆,而這些資料能至少有30000個句子,能做初步的模型建立。
對論文該做什麼有越來越清楚的跡象,資料是非常重要的一環,當初教授也耳提面命先找到資料,結果我完全按照自己的進度到現在才有初步的資料。有些同學早就找好資料,可能已經進入分析的階段,確實讓自己有些壓力。因此如果沒有資料,像我先前一樣,只是一直不斷的學習相關技術,終究會變成無用功。
收穫與感想
今年過年,決定先多花時間投入在論文上,反覆出現的焦慮,導致自己拖延,吃更多垃圾食物,寫下這篇文章反而才好好幫助自己反思。
一、反覆出現想抵達終點的焦慮,導致看不見終點在哪
在人工智慧領域如火如荼發展的現在,學習一些相關概念,會操作一些模型,頂多是剛拿到駕照的概念,實際上路發現,滿街都是技術純熟的F1賽車手,而且路上更新更強的車子每隔幾個月就會出現。這也是一位優秀的資料分析師朋友提出的焦慮:「在LLM領域,有太多東西要學,常常不知道從何下手。」
雖然在論文進度(2)的收穫中已經提到相關的體悟,當時告訴自己,專注眼前的事情才是最重要的,但看著不斷推陳出新的市場,焦慮仍然會反覆出現,懷疑自己是不是真的有學到東西?剛學的技術會不會很快就被淘汰?要從哪種新技術開始學?兩年前的技術會不會太舊了?
在論文上則是,到底要先多讀一點研究,確定可行方向後再開始執行避免做白功,還是先動手執行再調整?教授想要我做的方向與我目前的方向不同,會不會有重做的危險?
面對這樣的焦慮,《踏實感的練習》一書中提到一段很能幫助自己的話。
了解道理是一回事,日復一日的實踐又是另外一回事。一行禪師曾說:「如果你想從事園藝,就必須彎下腰觸碰土壤。園藝是一種實踐,而不是一種想法。」
就像持續走在自己決定的這條路上,新的技術、潮翻天的應用可能會讓自己所學的,一下就像無用武之地,但如果因為擔心時間因此浪費掉,而遲遲沒有行動,只是一直在想,這樣才會是真正的一無所獲。
二、慢跑體悟
剛開始每週慢跑從3公里開始,只是為了讓身體活動並且流汗,跑了將近半年才提升到4公里,維持三個月左右,在最近這次慢跑突然在想,要不就跑看看5公里吧。
原本以為也會跟跑4公里一樣在3公里時感到疲累,然而神奇的是,當目標設定在5公里時,直到跑到4公里的距離,身體才開始真的感受到疲累。
或許這就像是《輕鬆駕馭意志力》中提到的概念。史丹佛大學的心理學家提出一項震撼了自制力研究領域的主張:科學研究結果普遍觀察到,人的自制力是有限的,但這只是反映自身對於意志力多寡的認定,而不代表身心達到真正的極限。學界才剛開始針對這些主張進行研究,而這也不代表人的自制能力是完全無上限的。只不過科學家目前傾向認為,人實際擁有的意志力,往往比自己所認定的更多,而這也提高了一種可能性:我們可以像運動員一樣克服意志力耗盡的疲乏感,全力衝向終點線,達成個人的意志力挑戰。
雖然現階段充滿焦慮,但我想仍可以靠著像信自己的意志力比感受到的更多,去突破現狀,讓龍年真正好運龍宗來,也祝福家人、好友,所有人帶著“蝦咪龍嘸驚”的精神,讓龍年行大運!