题目大意:已知n个单词和m篇文章,文章无空格,如果文章的前缀能有单词组成则可识别,请问每篇文章最长可识别长度是多少?
题目描述
标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。
一段文章T是由若干小写字母构成。一个单词W也是由若干小写字母构成。一个字典D是若干个单词的集合。我们称一段文章T在某个字典D下是可以被理解的,是指如果文章T可以被分成若干部分,且每一个部分都是字典D中的单词。
例如字典D中包括单词{‘is’, ‘name’, ‘what’, ‘your’},则文章‘whatisyourname’是在字典D下可以被理解的,因为它可以分成4个单词:‘what’, ‘is’, ‘your’, ‘name’,且每个单词都属于字典D,而文章‘whatisyouname’在字典D下不能被理解,但可以在字典D’=D+{‘you’}下被理解。这段文章的一个前缀‘whatis’,也可以在字典D下被理解,而且是在字典D下能够被理解的最长的前缀。
给定一个字典D,你的程序需要判断若干段文章在字典D下是否能够被理解。并给出其在字典D下能够被理解的最长前缀的位置。
输入输出格式
输入格式:
输入文件第一行是两个正整数n和m,表示字典D中有n个单词,且有m段文章需要被处理。之后的n行每行描述一个单词,再之后的m行每行描述一段文章。
其中1<=n, m<=20,每个单词长度不超过10,每段文章长度不超过1M。
输出格式:
对于输入的每一段文章,你需要输出这段文章在字典D可以被理解的最长前缀的位置。
输入输出样例
输入样例#1:
4 3 is name what your whatisyourname whatisyouname whaisyourname
输出样例#1:
14 (整段文章’whatisyourname’都能被理解) 6 (前缀’whatis’能够被理解) 0 (没有任何前缀能够被理解)
解题思路
单词个数比较少,而且每个单词长度也比较小,可以用Trie树存储单词,这样的好处是不需要逐个单词去比较,只需要一条链走下去就能判断是否存在这个单词。
建立字典树:从根结点p=0开始,逐个字母查找,如果根结点的儿子没有该字母,则新建一个儿子结点存储该字母;接着跳到对应的儿子结点,p更新为子树的根,继续查找下一个字母。所有字母都添加完毕,标记一下该结点是单词的结尾,f=1。
建树完毕后,逐篇文章处理——先读入,然后搜索单词。dfs需要记录单词的起始位置,如果从这个位置开始搜索过了,下一次就没必要再从这个位置开始(代码20行),这可以用于剪枝,也就是记忆化搜索;dfs还需要记录文章位置,即搜索到哪里,下一个匹配的字母是哪个,如果不能在字典树中找到这个字母,搜索就停止了,否则继续看下一个字母——文章跳到下一个字母,字典树跳到下一层(代码26行);当然,如果遇到单词结束位置(代码25行),那么文章的下一个字母可以作为新单词的开头,下次就从字典树的根开始比较了,此时也找到了文章可理解的一个长度,记录长度最大值。
总之,搜索过程中,如果可以重新匹配单词,那么前面部分就是可以理解的,需要记录长度;如果重新匹配单词,顺便标记一下该位置试过了,下次不再试,剪枝;如果能继续匹配,就继续匹配;如果找到单词,可以跳到下一个单词;如果整篇文章都可以匹配,那么ans=len,s[ans]是0。
程序实现
暴力DP(满分):从前往后,一次寻找可以理解的结束位置。f[i]=1表示前面i个字母可以被理解。对于文章位置j,如果要让f[j]=1,那么最后的一段字母必定要等于某个单词,且除去这个单词的前面整段都有可以被理解,如要等于第k个单词,单词是w[k],长度是c[k],那么f[j-c[k=1才行,且s[j-c[k]+1]到s[j]这一段要等于w[k]。
小技巧:为了避免j-c[k]出现负数,文章读入到s[30];如发现一个单词能够是前i个字母被理解,就不需要再看其他单词了,因为我们关系的是这个位置之前是否能被理解而已;如果连续20个字符(超过每一个单词的长度)都没有被标记f=1,那么后面就不可能被理解了,因为f[j-c[k不可能等于0。