该模块包含了多种工具函数。
class gensim.utils.ClippedCorpus(corpus, max_docs=None)
1
2
3
4
5
基类: gensim.utils.SaveLoad
返回一个语料库,输入迭代语料的"head"。
在max_docs之后的任何文档都会被忽略。返回语料的有限长度限制:<= max_docs。设置max_docs=None ,则为无限制,将有效包装整个输入语料。
classmethod load(fname, mmap=None)
1
2
3
加载之前保存的文件对象。
同上。
save(fname, separately=None, sep_limit=10485760, ignore=frozenset([]))
1
2
3
保存文件对象。
同上。
class gensim.utils.FakeDict(num_terms)
1
2
3
4
5
基类: object
对于指定范围的integer <0的num_terms,该类对象和字典有些类似,用于映射 integer->str(integer),
这意味着当num_terms够大时,你可以避免分配真正的字典,避免内存浪费。
get(val, default=None)
iteritems()
keys()
1
2
3
override dict.keys()函数,它用来决定一个语料的最大内部id=词汇表。
Hack: 为了避免materializing整个range(0, self.num_terms),这将返回最高的id = [self.num_terms - 1]。
class gensim.utils.InputQueue(q, corpus, chunksize, maxsize, as_numpy)
1
Base: multiprocessing.process.Process
authkey
daemon
1
返回哪个daemon进程 ------------------------------------------------------------
exitcode
1
返回进程退出码,如果没有停下来,则返回None
ident
1
返回进程的identifier(PID), 如果没有start,返回None
is_alive()
1
返回alive的进程
join(timeout=None)
1
直到子进程终结
name
pid
1
返回进程PID,若没有start,则返回None
run()
start()
1
启动子进程
terminate()
1
终止进程,发送SIGTERM信号 或者 使用TerminateProcess()
class gensim.utils.NoCM
1
Base: object
acquire()
release()
class gensim.utils.RepeatCorpus(corpus, reps)
1
2
3
Base: gensim.utils.SaveLoad
在教程中使用过的分布式计算,其它地方不可用。