当前位置:首页 > 字典树 > 正文
BZOJ1212[HNOI2004]L语言
4790+

题目大意:已知n个单词和m篇文章,文章无空格,如果文章的前缀能有单词组成则可识别,请问每篇文章最长可识别长度是多少?

题目描述

标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。

一段文章T是由若干小写字母构成。一个单词W也是由若干小写字母构成。一个字典D是若干个单词的集合。我们称一段文章T在某个字典D下是可以被理解的,是指如果文章T可以被分成若干部分,且每一个部分都是字典D中的单词。

例如字典D中包括单词{‘is’, ‘name’, ‘what’, ‘your’},则文章‘whatisyourname’是在字典D下可以被理解的,因为它可以分成4个单词:‘what’, ‘is’, ‘your’, ‘name’,且每个单词都属于字典D,而文章‘whatisyouname’在字典D下不能被理解,但可以在字典D’=D+{‘you’}下被理解。这段文章的一个前缀‘whatis’,也可以在字典D下被理解,而且是在字典D下能够被理解的最长的前缀。

给定一个字典D,你的程序需要判断若干段文章在字典D下是否能够被理解。并给出其在字典D下能够被理解的最长前缀的位置。

输入输出格式

输入格式:

输入文件第一行是两个正整数n和m,表示字典D中有n个单词,且有m段文章需要被处理。之后的n行每行描述一个单词,再之后的m行每行描述一段文章。

其中1<=n, m<=20,每个单词长度不超过10,每段文章长度不超过1M。

输出格式:

对于输入的每一段文章,你需要输出这段文章在字典D可以被理解的最长前缀的位置。

输入输出样例

输入样例#1:

4 3 
is
name
what
your
whatisyourname
whatisyouname
whaisyourname

输出样例#1:

14  (整段文章’whatisyourname’都能被理解)
6  (前缀’whatis’能够被理解)
0  (没有任何前缀能够被理解)

解题思路

单词个数比较少,而且每个单词长度也比较小,可以用Trie树存储单词,这样的好处是不需要逐个单词去比较,只需要一条链走下去就能判断是否存在这个单词。

建立字典树:从根结点p=0开始,逐个字母查找,如果根结点的儿子没有该字母,则新建一个儿子结点存储该字母;接着跳到对应的儿子结点,p更新为子树的根,继续查找下一个字母。所有字母都添加完毕,标记一下该结点是单词的结尾,f=1。

建树完毕后,逐篇文章处理——先读入,然后搜索单词。dfs需要记录单词的起始位置,如果从这个位置开始搜索过了,下一次就没必要再从这个位置开始(代码20行),这可以用于剪枝,也就是记忆化搜索;dfs还需要记录文章位置,即搜索到哪里,下一个匹配的字母是哪个,如果不能在字典树中找到这个字母,搜索就停止了,否则继续看下一个字母——文章跳到下一个字母,字典树跳到下一层(代码26行);当然,如果遇到单词结束位置(代码25行),那么文章的下一个字母可以作为新单词的开头,下次就从字典树的根开始比较了,此时也找到了文章可理解的一个长度,记录长度最大值。

总之,搜索过程中,如果可以重新匹配单词,那么前面部分就是可以理解的,需要记录长度;如果重新匹配单词,顺便标记一下该位置试过了,下次不再试,剪枝;如果能继续匹配,就继续匹配;如果找到单词,可以跳到下一个单词;如果整篇文章都可以匹配,那么ans=len,s[ans]是0。

程序实现

暴力DP(满分):从前往后,一次寻找可以理解的结束位置。f[i]=1表示前面i个字母可以被理解。对于文章位置j,如果要让f[j]=1,那么最后的一段字母必定要等于某个单词,且除去这个单词的前面整段都有可以被理解,如要等于第k个单词,单词是w[k],长度是c[k],那么f[j-c[k=1才行,且s[j-c[k]+1]到s[j]这一段要等于w[k]。

小技巧:为了避免j-c[k]出现负数,文章读入到s[30];如发现一个单词能够是前i个字母被理解,就不需要再看其他单词了,因为我们关系的是这个位置之前是否能被理解而已;如果连续20个字符(超过每一个单词的长度)都没有被标记f=1,那么后面就不可能被理解了,因为f[j-c[k不可能等于0。

About

坚决不Copy代码!

本文标签:,,,,,,,

BZOJ1212[HNOI2004]L语言:等您坐沙发呢!

发表评论

您必须 [ 登录 ] 才能发表留言!