以《出師表(biao)》作(zuo)為例子,對比通用分(fen)塊和(he)父子分(fen)塊的區(qu)別
以《出師表》作為例子,對比通用分塊和父子分塊的區別
我們以《出師表》(節選)為例,通過具體分割結果對比通用分塊和父子分塊的核心差異。《出(chu)師表》結構清晰(xi)(含表文開頭、歷史(shi)回顧、治國建議、出(chu)師目的等部分),適合展示兩種分塊策略的不同(tong)邏輯。
原始文本(《出師表》節選)
先帝創業未半而中道崩殂,今天下三分,益州疲弊,此誠危急存亡之秋也。然侍衛之臣不懈于內,忠志之士忘身于外者,蓋追先帝之殊遇,欲報之于陛下也。誠宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引喻失義,以塞忠諫之路也。
宮中府中,俱為一體,陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜付有司論其刑賞,以昭陛下平明之理,不宜偏私,使內外異法也。
侍中、侍郎郭攸之、費祎、董允等,此皆良實,志慮忠純,是以先帝簡拔以遺陛下。愚以為宮中之事,事無大小,悉以咨之,然后施行,必能裨補闕漏,有所廣益。
將軍向寵,性行淑均,曉暢軍事,試用于昔日,先帝稱之曰能,是以眾議舉寵為督。愚以為營中之事,悉以咨之,必能使行陣和睦,優劣得所。
親賢臣,遠小人,此先漢所以興隆也;親小人,遠賢臣,此后漢所以傾頹也。先帝在時,每與臣論此事,未嘗不嘆息痛恨于桓、靈也。侍中、尚書、長史、參軍,此悉貞良死節之臣,愿陛下親之信之,則漢室之隆,可計日而待也。
臣本布衣,躬耕于南陽,茍全性命于亂世,不求聞達于諸侯。先帝不以臣卑鄙,猥自枉屈,三顧臣于草廬之中,咨臣以當世之事,由是感激,遂許先帝以驅馳。后值傾覆,受任于敗軍之際,奉命于危難之間,爾來二十有一年矣。
先帝知臣謹慎,故臨崩寄臣以大事也。受命以來,夙夜憂嘆,恐托付不效,以傷先帝之明,故五月渡瀘,深入不毛。今南方已定,兵甲已足,當獎率三軍,北定中原,庶竭駑鈍,攘除奸兇,興復漢室,還于舊都。此臣所以報先帝而忠陛下之職分也。至于斟酌損益,進盡忠言,則攸之、祎、允之任也。
愿陛下托臣以討賊興復之效,不效,則治臣之罪,以告先帝之靈。若無興德之言,則責攸之、祎、允等之慢,以彰其咎。陛下亦宜自謀,以咨諏善道,察納雅言,深追先帝遺詔。臣不勝受恩感激。今當遠離,臨表涕零,不知所言。
一、通用分塊(按固定長度分割)
核心邏輯
不考慮文本天然段落結構,按固定字符數(此處設為 200字,含(han)少量重疊)分割為獨立(li)片段,所有分塊平(ping)級無(wu)關(guan)聯。
分割結果(示例)
# 分塊1
先帝創業未半而中道崩殂,今天下三分,益州疲弊,此誠危急存亡之秋也。然侍衛之臣不懈于內,忠志之士忘身于外者,蓋追先帝之殊遇,欲報之于陛下也。誠宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引喻失義,以塞忠諫之路也。
宮中府中,俱為一體,陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜付有司論其刑賞,以昭陛下平明之理,不宜偏私,使內外異法也。
# 分塊2(與分塊1重疊部分:宮中府中...)
宮中府中,俱為一體,陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜付有司論其刑賞,以昭陛下平明之理,不宜偏私,使內外異法也。
侍中、侍郎郭攸之、費祎、董允等,此皆良實,志慮忠純,是以先帝簡拔以遺陛下。愚以為宮中之事,事無大小,悉以咨之,然后施行,必能裨補闕漏,有所廣益。
# 分塊3
將軍向寵,性行淑均,曉暢軍事,試用于昔日,先帝稱之曰能,是以眾議舉寵為督。愚以為營中之事,悉以咨之,必能使行陣和睦,優劣得所。
親賢臣,遠小人,此先漢所以興隆也;親小人,遠賢臣,此后漢所以傾頹也。先帝在時,每與臣論此事,未嘗不嘆息痛恨于桓、靈也。侍中、尚書、長史、參軍,此悉貞良死節之臣,愿陛下親之信之,則漢室之隆,可計日而待也。
# 分塊4(后續內容,略)
...
特點
- 破壞天然結構:如“宮中府中”的治國建議被拆分為分塊1和分塊2,完整語義被割裂;
- 檢索依賴運氣:若用戶問“諸葛亮推薦了哪些宮中大臣?”,需恰好命中包含“郭攸之、費祎、董允”的分塊2,若分塊長度設置不當,可能遺漏;
- 無上下文關聯:分塊3提到“向寵”,但無法直接關聯到其屬于“軍事建議”的整體邏輯。
二、父子分塊(按語義層級分割)
核心邏輯
先按天然段落/主題拆分為“父(fu)塊(kuai)”(保(bao)留完(wan)整語義(yi)單元(yuan)),再從父(fu)塊(kuai)中拆分“子塊(kuai)”(細(xi)節信(xin)息(xi)),子塊(kuai)通過元(yuan)數據綁定父(fu)塊(kuai)。
分割結果(示例)
1. 父塊(按主題劃分,保留完整邏輯)
# 父塊1(開篇立論與核心建議)
先帝創業未半而中道崩殂,今天下三分,益州疲弊,此誠危急存亡之秋也。然侍衛之臣不懈于內,忠志之士忘身于外者,蓋追先帝之殊遇,欲報之于陛下也。誠宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引喻失義,以塞忠諫之路也。
# 父塊2(治國原則:宮中與府中統一)
宮中府中,俱為一體,陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜付有司論其刑賞,以昭陛下平明之理,不宜偏私,使內外異法也。
# 父塊3(推薦宮中大臣)
侍中、侍郎郭攸之、費祎、董允等,此皆良實,志慮忠純,是以先帝簡拔以遺陛下。愚以為宮中之事,事無大小,悉以咨之,然后施行,必能裨補闕漏,有所廣益。
# 父塊4(推薦軍事人才)
將軍向寵,性行淑均,曉暢軍事,試用于昔日,先帝稱之曰能,是以眾議舉寵為督。愚以為營中之事,悉以咨之,必能使行陣和睦,優劣得所。
# 父塊5(親賢遠佞的歷史教訓)
親賢臣,遠小人,此先漢所以興隆也;親小人,遠賢臣,此后漢所以傾頹也。先帝在時,每與臣論此事,未嘗不嘆息痛恨于桓、靈也。侍中、尚書、長史、參軍,此悉貞良死節之臣,愿陛下親之信之,則漢室之隆,可計日而待也。
# 父塊6(自述身世與先帝之恩)
臣本布衣,躬耕于南陽,茍全性命于亂世,不求聞達于諸侯。先帝不以臣卑鄙,猥自枉屈,三顧臣于草廬之中,咨臣以當世之事,由是感激,遂許先帝以驅馳。后值傾覆,受任于敗軍之際,奉命于危難之間,爾來二十有一年矣。
# 父塊7(出師目的與責任劃分)
先帝知臣謹慎,故臨崩寄臣以大事也。受命以來,夙夜憂嘆,恐托付不效,以傷先帝之明,故五月渡瀘,深入不毛。今南方已定,兵甲已足,當獎率三軍,北定中原,庶竭駑鈍,攘除奸兇,興復漢室,還于舊都。此臣所以報先帝而忠陛下之職分也。至于斟酌損益,進盡忠言,則攸之、祎、允之任也。
# 父塊8(臨終囑托)
愿陛下托臣以討賊興復之效,不效,則治臣之罪,以告先帝之靈。若無興德之言,則責攸之、祎、允等之慢,以彰其咎。陛下亦宜自謀,以咨諏善道,察納雅言,深追先帝遺詔。臣不勝受恩感激。今當遠離,臨表涕零,不知所言。
2. 子塊(從父塊中拆分細節,綁定父塊ID)
# 子塊1(父塊3的細節:推薦的宮中大臣姓名)
侍中、侍郎郭攸之、費祎、董允等,此皆良實,志慮忠純。
(元數據:parent_id=3,父塊主題“推薦宮中大臣”)
# 子塊2(父塊3的細節:推薦理由)
是以先帝簡拔以遺陛下。愚以為宮中之事,事無大小,悉以咨之,然后施行,必能裨補闕漏,有所廣益。
(元數據:parent_id=3)
# 子塊3(父塊4的細節:推薦的軍事人才)
將軍向寵,性行淑均,曉暢軍事,試用于昔日,先帝稱之曰能。
(元數據:parent_id=4,父塊主題“推薦軍事人才”)
# 子塊4(父塊7的細節:出師目標)
當獎率三軍,北定中原,庶竭駑鈍,攘除奸兇,興復漢室,還于舊都。
(元數據:parent_id=7,父塊主題“出師目的與責任劃分”)
# 子塊5(父塊5的細節:親賢遠佞的歷史對比)
親賢臣,遠小人,此先漢所以興隆也;親小人,遠賢臣,此后漢所以傾頹也。
(元數據:parent_id=5,父塊主題“親賢遠佞的歷史教訓”)
特點
- 保留語義完整性:每個父塊對應一個獨立主題(如“推薦宮中大臣”“出師目的”),避免通用分塊的割裂問題;
- 檢索精準且有背景:若用戶問“諸葛亮推薦了哪些人處理宮中事務?”,先通過子塊1(含“郭攸之、費祎、董允”)匹配,再通過
parent_id=3回溯父塊3,獲取完整推薦理由和建議; - 支持復雜關聯查詢:若用戶問“諸葛亮認為漢朝興衰的關鍵是什么?”,子塊5匹配“親賢臣,遠小人”,父塊5提供完整歷史教訓(先漢興隆、后漢傾頹),答案更全面。
三、核心區別總結
| 對比維度 | 通用分塊(《出師表》案例) | 父子分塊(《出師表》案例) |
|---|---|---|
| 分塊依據 | 固定字符長度(如200字),不考慮段落/主題 | 文本天然主題(如“推薦大臣”“出師目的”),先父后子 |
| 語義完整性 | 差(如“宮中府中”建議被拆分到兩個分塊) | 好(父塊完整保留每個主題的邏輯) |
| 檢索邏輯 | 直接匹配分塊,若問題涉及跨分塊內容,易遺漏關聯 | 先匹配子塊(細節),再關聯父塊(背景),自動補全邏輯 |
| 適用問題類型 | 簡單事實查詢(如“先帝崩殂時天下局勢如何?”) | 復雜關聯查詢(如“諸葛亮推薦大臣的理由與治國建議的關系”) |
通(tong)過(guo)《出師表》的(de)(de)(de)例(li)子可見:通(tong)用分塊(kuai)適合快速(su)處理(li)結構簡單的(de)(de)(de)文(wen)本和基(ji)礎查(cha)詢,而父子分塊(kuai)更(geng)適合結構清晰、需要深度(du)理(li)解的(de)(de)(de)文(wen)本(如古文(wen)、論文(wen)、長報告),能在(zai)精準匹配(pei)細節的(de)(de)(de)同時,保留(liu)完整的(de)(de)(de)語義背景。
---------------------------------------------------------------
aspnetx的BI筆記系列(lie)索引:
使用SQL Server Analysis Services數據挖掘的關聯規則實現商品推薦功能
---------------------------------------------------------------
