ldapython代码实现_python中的lda包怎么用

‘壹’ python lda 主题模型需要使用什么包

python lda 主题模型需要使用什么包
数据结构是程序构成的重要部分，链表、树、图这些在用C 编程时需要仔细表达的问题在Python 中简单了很多。在Python 中，最基本的数据结构就是数组、序列和哈希表，用它们想要表达各种常见的数据结构是非常容易的。没了定义指针、分配内存的任务，编程变得有趣了。CORBA 是一种高级的软件体系结构，它是语言无关平台无关的。C++、Java 等语言都有CORBA 绑定，但与它们相比，Python 的 CORBA 绑定却容易很多，因为在程序员看来，一个 CORBA 的类和 Python 的类用起来以及实现起来并没有什么差别。

‘贰’ 请问那位高人有关于人脸识别lda算法的实例，带图片库最好，谢谢

原代码可以在这里下载。论文原作者David Blei用C写的。
lda-c.tgz载下来解压，用make编译，生成lda可执行程序。
lda est [initial alpha] [k] [settings] [data] [random/seeded/*] [directory]
lda inf [settings] [model] [data] [name]
第一个命令是模型生成的部分。est就是estimate
第二个命令是推理部分。inf就是inference
主函数在lda-estimate.c里。
readme.txt里的模型描述：
LDA is a hierarchical probabilistic model of documents. Let \alpha be a scalar and \beta_{1:K} be K distributions of words (called "topics"). As implemented here, a K topic LDA model assumes the following generative process of an N word document:
1. \theta | \alpha ~ Dirichlet(\alpha, ..., \alpha)
2. for each word n = {1, ..., N}:
a. Z_n | \theta ~ Mult(\theta)
b. W_n | z_n, \beta ~ Mult(\beta_{z_n})
This code implements variational inference of \theta and z_{1:N} for a document, and estimation of the topics \beta_{1:K} and Dirichlet parameter \alpha.
从前面一篇文章可知K是一个选取的参数表示topic的个数(在代码里用变量NTOPICS表示)，\alpha是Dirichlet分布的参数，本来是一个k维向量，但是这里把它定义为标量，用一个值表示。在lda est命令里会给出一个初始的\alpha值，程序会根据训练数据求出最终的\alpha和\beta值，\beta值在上一篇文章中已经解释: β是一个k*V的矩阵。k就是主题个数，V是词语个数。计算模型实际上就是估算α和β的值。
lda est另外几个参数的解释。
setting: 配置文件，格式如下：
var max iter [integer e.g., 10 or -1]
var convergence [float e.g., 1e-8]
em max iter [integer e.g., 100]
em convergence [float e.g., 1e-5]
alpha [fit/estimate]
var max iter: 对于每一个文档的最大迭代次数，－1就是不限制，用收敛准则去判断是否停止迭代。
var convergence: 参数估计的收敛准则，当(score_old - score) / abs(score_old)小于设定值(或者迭代次数达到最大值)时，停止迭代
em max iter: EM最大迭代次数
em convergence: EM收敛准则
alpha: fit表示迭代过程中\alpha值保持不变，estimate表示\alpha值也会计算
data: 数据文件(数据格式在后面讲到)
random/seeded/*: 模型初始化参数，就是\beta矩阵的初始化。random就是用随机变量初始化，seeded就是随机抽取一个文档用平滑方法得到。＊表示从已有的模型里载入。代码里涉及到一个概念：sufficient statistics(充分统计量)，用结构体lda_suffstats存储，里面有一个k*V的二维数组class_word，不知道跟lda_model结构里的log_prob_w(也是k*V的二维数组)是什么关系。此处存疑。
directory: 输出目录
这里有一个简单的语料库。载下来解压到lda程序所在目录。
然后运行如下命令
./lda 1 10 settings.txt ap/ap.dat random output
大概跑10来分钟

‘叁’ 怎样实现对短文本的主题分析python3实现

看这个题目很有兴趣，说两句mark一下学习。

人在阅读时，不一定预设一个或者几个主题，而是根据词语涉及的场景或者类别逐步进入作者的思路，可能最后一句才发现那只是一段笑话。
LDA的不足我觉得主要有两个，一个是主题桶的数量，一个是词语无序的统计。

改进的思路，一个是把主题桶换成词典，就是把每个词可能的场景或者类别抽取出来分析，发散思维而不是在主题桶里选择。比如：苹果、价格、乔布斯。苹果可能的类别有水果、农业、经济、手机等，与后面的词语类别的重叠和统计，形成主题的神经网络，以后通过AI完善词典不断提高分析效果。
一个是增加对文本顺序的考虑，对剧情内容进行捕捉，通过对前后主题和场景的变化，达到分析剧情的目的。
只是一个思路，仅供参考。

‘肆’ Python中用LDA计算困惑度时出现代码错误，这行代码表示模型文件名的迭代公式

LDA主题模型的评价指标是困惑度，困惑度越小，模型越好。
所以，可以跑一组实验，看不同迭代次数对应的困惑度是多少，画一条曲线，最小困惑度对应的迭代次数即为最佳次数。
迭代次数太少，会导致模型尚未收敛，迭代次数太多，又会浪费计算资源。

‘伍’ python中的lda包怎么用

安装
$ pip install lda --user

示例
from __future__ import division, print_function

import numpy as np
import lda
import lda.datasets

# document-term matrix
X = lda.datasets.load_reuters()
print("type(X): {}".format(type(X)))
print("shape: {}\n".format(X.shape))
print(X[:5, :5])

'''输出：

type(X): <type 'numpy.ndarray'>
shape: (395L, 4258L)

[[ 1 0 1 0 0]
[ 7 0 2 0 0]
[ 0 0 0 1 10]
[ 6 0 1 0 0]
[ 0 0 0 2 14]]
'''

‘陆’ python如何根据csv中一列的内容对另一列进行写入

"""
请参考
python列表切片读取csv数据计算导购客单价.py
题目来源https://github.com/FGFW/FCNNIC
依山居19:442015/11/22
计算公式为:
导购日客单价=导购日成交金额/日客单数
每个相同的单据编号为1单,也就是去重后得到该导购的日客单数
导购日成交金额=导购完成的日所有单总和，也可以小计中倒数第二列直接提取
要求：计算出CSV表格中每位导购每天的客单价.
总结:这个版本要计算多个日期，逻辑复杂度多了一层，
忍不住写很了很多列表解析过滤,代码行数少，但是可读性和维护性应该差。
"""
withopen("2014.08.01-2014.09.30零售数据.csv")asf:
txt=[r.rstrip("
").split(",")forrinf.readlines()]
dg={r[0]forrintxtif(r[0]!='')and("普通零售"inr[5])}
dg=sorted(dg)
fordindg:
date={r[1]forrintxtif(dinr[0])and("-"inr[1])}
date=sorted(date)
fortindate:
导购成交金额=sum([float(s[-3])forsintxtif(dins[0]and(tins[1])ands[-3]!='')])
日单数=len({s[2]forsintxtif(dins[0]and(tins[1])ands[-3])})
导购客单价=导购成交金额/日单数
print(d,"%s成交额:%4.2f客单价:%2.2f日单数:%2d"%(t,导购成交金额,导购客单价,日单数))


try:
input("按回车退出")
exceptSyntaxError:
pass

"""
输出：
...
顾意珍2014-09-13成交额:539.00客单价:26.95日单数:20
顾意珍2014-09-14成交额:397.00客单价:22.06日单数:18
黎丽群2014-08-15成交额:489.00客单价:19.56日单数:25
...
"""

‘柒’ python lda 粘贴代码后出现这样的问题，求救

好好看代码，不要沾别人的，一般网上的代码只是重点代码，不是完整代码

‘捌’ LDA主题模型，有人用过JGibbLDA这个lda实现么

有很多啊,python里面都有标准的库了,其实有了JGibbsLDA也就够了,想要其他语言的版本,自己改写一个吧

‘玖’ Python LDA降维中不能输出指定维度（n_components）的新数据集

LDA降维后的维度区间在[1,C-1]，C为特征空间的维度，与原始特征数n无关，对于二值分类，最多投影到1维，所以我估计你是因为这是个二分类问题，所以只能降到一维。

‘拾’ Python语言下的机器学习库

Python语言下的机器学习库
Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。当然，它也有些缺点；其中一个是工具和库过于分散。如果你是拥有unix思维（unix-minded）的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。
这篇文章的目的就是列举并描述Python可用的最有用的机器学习工具和库。这个列表中，我们不要求这些库是用Python写的，只要有Python接口就够了。我们在最后也有一小节关于深度学习（Deep Learning）的内容，因为它最近也吸引了相当多的关注。
我们的目的不是列出Python中所有机器学习库（搜索“机器学习”时Python包索引(PyPI)返回了139个结果），而是列出我们所知的有用并且维护良好的那些。另外，尽管有些模块可以用于多种机器学习任务，我们只列出主要焦点在机器学习的库。比如，虽然Scipy包含一些聚类算法，但是它的主焦点不是机器学习而是全面的科学计算工具集。因此我们排除了Scipy（尽管我们也使用它！）。
另一个需要提到的是，我们同样会根据与其他科学计算库的集成效果来评估这些库，因为机器学习（有监督的或者无监督的）也是数据处理系统的一部分。如果你使用的库与数据处理系统其他的库不相配，你就要花大量时间创建不同库之间的中间层。在工具集中有个很棒的库很重要，但这个库能与其他库良好集成也同样重要。
如果你擅长其他语言，但也想使用Python包，我们也简单地描述如何与Python进行集成来使用这篇文章列出的库。
Scikit-LearnScikit Learn是我们在CB Insights选用的机器学习工具。我们用它进行分类、特征选择、特征提取和聚集。我们最爱的一点是它拥有易用的一致性API，并提供了很多开箱可用的求值、诊断和交叉验证方法（是不是听起来很熟悉？Python也提供了“电池已备(译注：指开箱可用)”的方法）。锦上添花的是它底层使用Scipy数据结构，与Python中其余使用Scipy、Numpy、Pandas和Matplotlib进行科学计算的部分适应地很好。因此，如果你想可视化分类器的性能（比如，使用精确率与反馈率(precision-recall)图表，或者接收者操作特征(Receiver Operating Characteristics，ROC)曲线），Matplotlib可以帮助进行快速可视化。考虑到花在清理和构造数据的时间，使用这个库会非常方便，因为它可以紧密集成到其他科学计算包上。
另外，它还包含有限的自然语言处理特征提取能力，以及词袋（bag of words）、tfidf（Term Frequency Inverse Document Frequency算法）、预处理（停用词/stop-words，自定义预处理，分析器）。此外，如果你想快速对小数据集（toy dataset）进行不同基准测试的话，它自带的数据集模块提供了常见和有用的数据集。你还可以根据这些数据集创建自己的小数据集，这样在将模型应用到真实世界中之前，你可以按照自己的目的来检验模型是否符合期望。对参数最优化和参数调整，它也提供了网格搜索和随机搜索。如果没有强大的社区支持，或者维护得不好，这些特性都不可能实现。我们期盼它的第一个稳定发布版。
StatsmodelsStatsmodels是另一个聚焦在统计模型上的强大的库，主要用于预测性和探索性分析。如果你想拟合线性模型、进行统计分析，或者预测性建模，那么Statsmodels非常适合。它提供的统计测试相当全面，覆盖了大部分情况的验证任务。如果你是R或者S的用户，它也提供了某些统计模型的R语法。它的模型同时也接受Numpy数组和Pandas数据帧，让中间数据结构成为过去！
PyMCPyMC是做贝叶斯曲线的工具。它包含贝叶斯模型、统计分布和模型收敛的诊断工具，也包含一些层次模型。如果想进行贝叶斯分析，你应该看看。
ShogunShogun是个聚焦在支持向量机（Support Vector Machines, SVM）上的机器学习工具箱，用C++编写。它正处于积极开发和维护中，提供了Python接口，也是文档化最好的接口。但是，相对于Scikit-learn，我们发现它的API比较难用。而且，也没提供很多开箱可用的诊断和求值算法。但是，速度是个很大的优势。
GensimGensim被定义为“人们的主题建模工具（topic modeling for humans）”。它的主页上描述，其焦点是狄利克雷划分（Latent Dirichlet Allocation， LDA）及变体。不同于其他包，它支持自然语言处理，能将NLP和其他机器学习算法更容易组合在一起。如果你的领域在NLP，并想进行聚集和基本的分类，你可以看看。目前，它们引入了Google的基于递归神经网络（Recurrent Neural Network）的文本表示法word2vec。这个库只使用Python编写。
OrangeOrange是这篇文章列举的所有库中唯一带有图形用户界面（Graphical User Interface，GUI）的。对分类、聚集和特征选择方法而言，它是相当全面的，还有些交叉验证的方法。在某些方面比Scikit-learn还要好（分类方法、一些预处理能力），但与其他科学计算系统（Numpy, Scipy, Matplotlib, Pandas）的适配上比不上Scikit-learn。但是，包含GUI是个很重要的优势。你可以可视化交叉验证的结果、模型和特征选择方法（某些功能需要安装Graphviz）。对大多数算法，Orange都有自己的数据结构，所以你需要将数据包装成Orange兼容的数据结构，这使得其学习曲线更陡。
PyMVPAPyMVPA是另一个统计学习库，API上与Scikit-learn很像。包含交叉验证和诊断工具，但是没有Scikit-learn全面。
深度学习尽管深度学习是机器学习的一个子节，我们在这里创建单独一节的原因是，它最新吸引了Google和Facebook人才招聘部门的很多注意。
TheanoTheano是最成熟的深度学习库。它提供了不错的数据结构（张量，tensor）来表示神经网络的层，对线性代数来说很高效，与Numpy的数组类似。需要注意的是，它的API可能不是很直观，用户的学习曲线会很高。有很多基于Theano的库都在利用其数据结构。它同时支持开箱可用的GPU编程。
PyLearn2还有另外一个基于Theano的库，PyLearn2，它给Theano引入了模块化和可配置性，你可以通过不同的配置文件来创建神经网络，这样尝试不同的参数会更容易。可以说，如果分离神经网络的参数和属性到配置文件，它的模块化能力更强大。
DecafDecaf是最近由UC Berkeley发布的深度学习库，在Imagenet分类挑战中测试发现，其神经网络实现是很先进的（state of art）。
Nolearn如果你想在深度学习中也能使用优秀的Scikit-learn库API，封装了Decaf的Nolearn会让你能够更轻松地使用它。它是对Decaf的包装，与Scikit-learn兼容（大部分），使得Decaf更不可思议。
OverFeatOverFeat是最近猫vs.狗（kaggle挑战）的胜利者，它使用C++编写，也包含一个Python包装器（还有Matlab和Lua）。通过Torch库使用GPU，所以速度很快。也赢得了ImageNet分类的检测和本地化挑战。如果你的领域是计算机视觉，你可能需要看看。
HebelHebel是另一个带有GPU支持的神经网络库，开箱可用。你可以通过YAML文件（与Pylearn2类似）决定神经网络的属性，提供了将神级网络和代码友好分离的方式，可以快速地运行模型。由于开发不久，就深度和广度上说，文档很匮乏。就神经网络模型来说，也是有局限的，因为只支持一种神经网络模型（正向反馈，feed-forward）。但是，它是用纯Python编写，将会是很友好的库，因为包含很多实用函数，比如调度器和监视器，其他库中我们并没有发现这些功能。
NeurolabNeuroLab是另一个API友好（与Matlabapi类似）的神经网络库。与其他库不同，它包含递归神经网络（Recurrent Neural Network，RNN）实现的不同变体。如果你想使用RNN，这个库是同类API中最好的选择之一。
与其他语言集成你不了解Python但是很擅长其他语言？不要绝望！Python（还有其他）的一个强项就是它是一个完美的胶水语言，你可以使用自己常用的编程语言，通过Python来访问这些库。以下适合各种编程语言的包可以用于将其他语言与Python组合到一起：R -> RPythonMatlab -> matpythonJava -> JythonLua -> Lunatic PythonJulia -> PyCall.jl
不活跃的库这些库超过一年没有发布任何更新，我们列出是因为你有可能会有用，但是这些库不太可能会进行BUG修复，特别是未来进行增强。MDPMlPyFFnetPyBrain如果我们遗漏了你最爱的Python机器学习包，通过评论让我们知道。我们很乐意将其添加到文章中。

导航:首页 > 编程语言 > ldapython代码实现

ldapython代码实现

与ldapython代码实现相关的资料