搜索引擎研究-如何分词-高级分词-基础分词后组合复合词汇
创始人
2024-03-15 02:15:15
0

最近测试搜索引擎,发现用基本词汇分词出来在索引检索会有检索词汇被细分,造成检索到的文章是七零八落的字组成的,经过几天分析,发现通过在基础词汇分词的基础上,再组合分词会巨大的提高新词发现率,词语发现准确率,完整词汇发现率。

在基础分词后,组合分词算法如下:


func RelaToWordList(rela map[string]*WordRelaInfo) (relawordls []string) {
    for w1, rela1 := range rela {
        if w1 == "的" || w1 == "是" || w1 == "了" {
            w1 = ""
        }
        for w2, rela2 := range rela1.next {
            bshow3 := false
            maxcnt3 := 0
            for w3, rela3 := range rela2.next {
                bshow4 := false
                maxcnt4 := 0
                for w4, rela4 := range rela3.next {
                    bshow5 := false
                    maxcnt5 := 0
                    for w5, rela5 := range rela4.next {
                        if rela5.cnt > 1 {
                            relawordls = append(relawordls, w1+w2+w3+w4+w5)
                            bshow5 = true
                            if rela5.cnt > maxcnt4 {
                                maxcnt5 = rela5.cnt
                            }
                        }
                    }
                    if bshow5 == false /*|| rela4.cnt > maxcnt5*/ {
                        if rela4.cnt > 1 {
                            relawordls = append(relawordls, w1+w2+w3+w4)
                            bshow4 = true
                            if rela4.cnt > maxcnt4 {
                                maxcnt4 = rela4.cnt
                            }
                        }
                    }
                    if maxcnt5 > maxcnt4 {
                        maxcnt4 = maxcnt5
                    }
                }
                if bshow4 == false /*|| rela3.cnt > maxcnt4*/ {
                    if rela3.cnt > 1 {
                        relawordls = append(relawordls, w1+w2+w3)
                        bshow3 = true
                    }
                }
                if maxcnt4 > maxcnt3 {
                    maxcnt3 = maxcnt4
                }
            }
            if bshow3 == false /*|| rela2.cnt > maxcnt3*/ {
                if rela2.cnt > 1 {
                    if w1 != "" {
                        relawordls = append(relawordls, w1+w2)
                    }
                }
            }
        }
    }
    return relawordls
}
 

相关内容

热门资讯

轻纺城:3.71亿元房屋征收补... 12月25日,轻纺城(600790)发布公告,2022年6月,公司子公司国际物流中心与房屋征收部门签...
诉讼未决,海辰储能赴港IPO前... 储能类公司赴港IPO难不难?对果下科技而言,不难——更新招股书后便很快登陆港股市场。对海辰储能而言,...
江丰电子:分红政策详见未来三年... 证券之星消息,江丰电子(300666)12月25日在投资者关系平台上答复投资者关心的问题。 投资者提...
深度关注丨促进"四项... 安徽省亳州市健全“纪巡”联动机制,该市市委巡察机构将发现的生态环境保护方面问题线索及时移交市纪委监委...
上海出台23条政策措施 支持长... 近日,上海市科委会同松江区研究制订了《关于支持长三角G60科创走廊策源地建设的若干措施》。《若干措施...
藏格矿业:发布对外投资管理制度 藏格矿业公告称,公司制定对外投资管理制度,规范对外投资行为,明确对外投资需遵循合法合规、符合发展战略...
一审败诉!海峡创新因担保卷入房... 12月25日晚间,海峡创新(300300)发布公告,公司收到浙江省杭州市拱墅区人民法院送达的民事判决...
形势政策系列报告会第三场报告会... 新华社北京12月25日电 由中央宣传部、中央和国家机关工委、教育部、中央军委政治工作部、北京市委联合...
以考提质 以答践责——长春市宽... 12月23日,长春市宽城区举行2025年度领导干部法律知识考试,28名新提拔处级领导干部和31名新提...