本部分首先闡述自然語言理解的發(fā)展脈絡和理解邏輯,主要圍繞語言符號、處理體系、語義理解等進行探討,引出自然語言理解的自動分析原理和方法,包括自然語言特征、統(tǒng)計學習、機器學習、深度學習、知識圖譜等。第1章概述自然語言發(fā)展脈絡,描述了語言理解的研究現(xiàn)狀、商業(yè)形勢、認知突破口和未來預測。第2章梳理語言理解的演變流程,介紹我們面臨的各類自然語言理解任務,最后給出語言理解的研究體系框架,引出自然語言理解的基礎——自然語言處理。第3章重點介紹自然語言處理相關特征工程和文本任務對應的各類算法模型、深度學習的前沿進展。語言處理需要考慮特征構造(字、詞、句、章級別)和特征表示,以利于后續(xù)自動處理。在特征表示方面,從早的符號表示到現(xiàn)在的張量表示,形成統(tǒng)計學習的基礎。接下來結合統(tǒng)計學習框架,論述語言學習原理和語言模型,結合概率圖模型和其他機器學習算法,闡述這些常規(guī)算法在自然語言處理任務中的應用和效果。然后進一步討論深度學習的各類算法,對語言學習中的神經網絡算法和新成果進行分析。最后探討現(xiàn)有處理方法的發(fā)展邊界,提出引入外源知識(知識圖譜)來提高認知能力的必要性。第4章系統(tǒng)介紹知識圖譜,包括知識圖譜工程和知識圖譜智能。然后梳理國內外常見的通用知識圖譜,并進一步總結熱門行業(yè)的知識圖譜發(fā)展現(xiàn)狀。最后結合語言知識和知識圖譜的搭建流程,引入語義特征,通過行業(yè)文本實例操作,幫助讀者了解語義理解的本質。行業(yè)知識圖譜部分包含第5~8章。本部分在上述基本自然語言處理方法講解的基礎上,繼續(xù)闡述行業(yè)知識圖譜搭建和行業(yè)應用的方法。目前從事自然語言理解的公司都將精力放在通用文本理解上,這些文本往往口語化嚴重、特征雜亂、信息量不足,導致算法處理形成的最終產品的用戶體驗不佳。考慮到行業(yè)文本往往有一定規(guī)范,相對容易取得突破口,也有利于推動行業(yè)發(fā)展,所以我們選擇從行業(yè)文本出發(fā),以專利文本實操作為樣板。第5章介紹行業(yè)知識工程實踐,以專利行業(yè)為例,詳細地描述了一個行業(yè)知識工程建設的過程。首先基于自然語言處理和知識圖譜搭建方法,建設行業(yè)知識庫,包括術語庫、產品庫、技術庫、標準庫、規(guī)則庫等,進而開發(fā)行業(yè)主題分析模型、行業(yè)文本分類算法、相似度計算方法、價值評估方法和機器翻譯方法。第6章介紹知識圖譜模塊的搭建,包括關鍵詞助手、語義搜索、分級管理、高級分析、推薦和問答等。結合實際應用,探討知識圖譜在提高智能性方面的能力和效果。第7章在前面知識工程和知識圖譜智能基礎上搭建智能應用平臺,介紹了平臺的各類功能組件,描述了自下而上的軟件服務封裝邏輯,進一步向上封裝為行業(yè)文本分析功能組件,包括檢索、分析、挖掘、管理、預警、運營等。讀者可以將這套思路在各行業(yè)進行實踐驗證,將上述組件和權限、安全板塊集成為應用平臺,搭建常態(tài)化文本分析運營平臺,完成平臺級別或各細分模塊的商業(yè)產品落地。第8章依托智能應用平臺,結合實踐案例給出團隊的應用經驗,即通過四個行業(yè)案例來驗證平臺的認知能力?!蹲匀徽Z言理解與行業(yè)知識圖譜:概念、方法與工程落地》以自然語言理解和行業(yè)知識圖譜應用落地為目標,闡述了一個從0到1的行業(yè)文本理解案例。《自然語言理解與行業(yè)知識圖譜:概念、方法與工程落地》為互聯(lián)網企業(yè)的智能平臺構建提供了很好的案例參考,也為行業(yè)信息化從業(yè)者提供了從入門到進階的技術指導,適合作為自然語言處理、知識圖譜、計算機、人工智能等領域從業(yè)者的學習指導書,也非常適合對自然語言處理、知識圖譜感興趣的學生和創(chuàng)業(yè)團隊閱讀。