企業做網站識別商品屬性信息設計
日期 : 2020-12-06 15:52:40
識別商品屬性信息設計。在電子商務網頁中對商品信息的描述中,包含商品的特征詞,因此結合超文本標記語言以及統計學規則,可以自動識別商品屬性信息的所在位置,設計流程為:
檢索電子商務網頁中商品屬性特征詞典中的每一個詞匯,若找到相配詞匯,則將該詞匯所在節點添加到候選集合中。再對后先集合中的每一個節點中,查詢與其距離最近的上一級別的節點,若未能成功找到則將該節點排除,若能夠找到則從上一級別的節點集合中將屬于該節點的子節點刪除。
利用統計學的規則,并結合提取規則,計算出節點中的表格子節點以及文本內容的子節點,并通過計算獲得其數量的所占比例,若比值大于75%,則將該節點加入到提取集合當中,若小于75%,則將該節點排除。
檢索電子商務網頁中商品屬性特征詞典中的每一個詞匯,若找到相配詞匯,則將該詞匯所在節點添加到候選集合中。再對后先集合中的每一個節點中,查詢與其距離最近的上一級別的節點,若未能成功找到則將該節點排除,若能夠找到則從上一級別的節點集合中將屬于該節點的子節點刪除。
利用統計學的規則,并結合提取規則,計算出節點中的表格子節點以及文本內容的子節點,并通過計算獲得其數量的所占比例,若比值大于75%,則將該節點加入到提取集合當中,若小于75%,則將該節點排除。
上一篇:企業做網站網絡爬蟲技術的應用場景
下一篇:企業做網站縮減HTTP請求