下棋是人類延續(xù)至今最古老的智力游戲,又稱對弈。巧合的是,人類與AI的“對弈”正是從對弈開始。1997年IBM人工智能軟件“深藍”擊敗國際象棋大師卡斯帕羅夫。約20年后的2016年,圍棋世界冠軍李世石敗于谷歌研發(fā)的AI軟件AlphaGo。AlphaGo也被韓國棋院授予“名譽九段”,成為人類第一位AI棋手。顛覆由此開始。
2022年ChatGPT橫空出世,AI離人類理想中的模樣更近了。于是,所謂的“大模型”時代悄然開啟。不到2年的時間,各種類型的AI大模型層出不窮。從谷歌、微軟、英偉達到華為、阿里,科技互聯(lián)網(wǎng)行業(yè)巨擘紛紛入局。一時間海內(nèi)外財經(jīng)、科技人士言必稱“大模型”。谷歌、微軟、英偉達、蘋果等7家科技公司市值一度達到13萬億美元,超過A股總市值。于是一種“AI才是人類未來”的說法甚囂塵上。從“名譽九段”到微軟首個“AI碼農(nóng)”,從自動生成文字、圖片、視頻、代碼,AI的顛覆山雨欲來。其實, AI的競爭邏輯已經(jīng)從資本、技術(shù)的積累向應(yīng)用和生態(tài)延伸。也就是說,AI在產(chǎn)業(yè)層面的應(yīng)用更關(guān)鍵。那么作為一家礦山無人駕駛企業(yè),路凱智行又是如何理解AI在產(chǎn)業(yè)內(nèi)的應(yīng)用的?
路凱智行聯(lián)合創(chuàng)始人兼CTO那崇寧博士是AI大模型領(lǐng)域的專家,長期從事相關(guān)領(lǐng)域的研究和應(yīng)用。早在2018年谷歌推出BERT的時候,那崇寧博士就斷定未來5年在自然語言處理領(lǐng)域內(nèi)會實現(xiàn)一個通用的人工智能,只會在自然語言處理這個領(lǐng)域里面實現(xiàn)通用的人工智能。站在2024回看過去,時間證明了那崇寧博士的預(yù)測。那崇寧博士認(rèn)為,目前較為成熟的AI大模型包括自然語言語言處理(NLP)類的AI大模型和計算機視覺類(CV)的AI大模型,隨著近幾個月SORA的橫空出世,融合語言與視覺的多模態(tài)模型也已初露崢嶸,但目前市面上的通用大模型并非“萬金油”,面向垂直領(lǐng)域內(nèi)的各類生成式AI應(yīng)用還需要結(jié)合場景需求積累數(shù)據(jù)和構(gòu)建定制化的模型。礦山無人駕駛已經(jīng)邁過了“下安全員”的門檻,現(xiàn)階段需要追平甚至超過有人駕駛的運輸效率。這一階段,AI對于提升無人駕駛的運營效率的意義不言而喻。那崇寧博士領(lǐng)導(dǎo)下的路凱智行研發(fā)團隊,早已開始了相關(guān)布局。視覺類的AI大模型目前已應(yīng)用于路凱智行自動駕駛感知算法的研發(fā),實際上,在AIGC概念提出之前,路凱智行的研發(fā)團隊已廣泛應(yīng)用生成式神經(jīng)網(wǎng)絡(luò)(GAN)等技術(shù)手段增強圖像、點云等感知數(shù)據(jù)集,用于對自動駕駛感知算法進行算法優(yōu)化,提升算法在更加通用的礦山場景下的準(zhǔn)確性、魯棒性和穩(wěn)定性,在路測的基礎(chǔ)上提供了低成本的算法優(yōu)化研發(fā)替代路徑。路凱智行的研發(fā)團隊在布局基于多模態(tài)AI大模型的自動駕駛綜合算法,將現(xiàn)有的面向感知任務(wù)的AI大模型理解和生成能力擴展到融定位、感知、規(guī)劃、控制、決策的綜合性模型,其中多模態(tài)體現(xiàn)在綜合融合結(jié)構(gòu)化信息(如地圖、車輛狀態(tài)等)、類圖像信息(圖像、點云、其他雷達數(shù)據(jù))及文本信息(規(guī)范、標(biāo)準(zhǔn)等)構(gòu)建以數(shù)據(jù)為驅(qū)動,以規(guī)范為約束的自動駕駛綜合智能體。目前該工作還處于模塊研發(fā)和原理驗證階段,面向?qū)嶋H應(yīng)用還需在算法的復(fù)雜度、實時性、魯棒性、穩(wěn)定性及可解釋性等方面開展大量的工作。此外,類ChatGPT的語言類AI大模型在智慧礦山綜合管控方面有廣泛的應(yīng)用場景,一方面可以運用AI大模型為智慧礦山的運營者和管理者構(gòu)建一個一體化的人機交互系統(tǒng),綜合管理礦山內(nèi)的各類知識資產(chǎn)(政策、規(guī)范、標(biāo)準(zhǔn)、設(shè)計圖紙等)和數(shù)據(jù)資產(chǎn)(實際生產(chǎn)、運營數(shù)據(jù)等),另一方面可運用AI大模型的低代碼能力(如NL2SQL類的數(shù)據(jù)分析能力)以較低的溝通和研發(fā)成本完成運營信息的整合、分析、挖掘與決策應(yīng)用,從而提升礦山運行的綜合效能。語言類AI大模型的實際落地應(yīng)用應(yīng)關(guān)注以下問題:一是通用AI大模型與企業(yè)應(yīng)用場景的適配,私有化部署能力及針對企業(yè)業(yè)務(wù)和數(shù)據(jù)的模型微調(diào)是關(guān)鍵因素;二是通用AI大模型的幻覺風(fēng)險防控,利用CoT、提示工程等非顯式干預(yù)方法,或運用API、RPA、NL2SQL等顯式干預(yù)方法是關(guān)鍵。路凱智行已在相關(guān)領(lǐng)域布局基礎(chǔ)模型和工具鏈的研發(fā),并在礦山制度管理、低代碼數(shù)據(jù)分析等領(lǐng)域形成落地能力。“現(xiàn)有的通用大模型無法直接賦能端到端礦山無人駕駛。但是,沿著這個思路,基于通用大模型的基本構(gòu)建原理,去構(gòu)建適用于礦山無人駕駛的模型的方向可以去嘗試。當(dāng)然,礦山場景的算力、數(shù)據(jù)能否支撐我們?nèi)?開始構(gòu)建基礎(chǔ)的模型,仍需時間去驗證工程的實用性?!眱|歐汽車2023全球科技出行大會上,那崇寧博士回答了媒體關(guān)于礦山無人駕駛大模型的暢想。(源于公眾號:全球智慧礦業(yè)創(chuàng)新研究院)