java文本相似度算法_k-means聚类算法的java代码实现文本聚类

❶ 如何计算多个文本的相似度java程序，利用向量

String text1 = "我爱学习";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new CosineTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：
我爱学习和我爱学习的相似度分值：1.0
我爱学习和我爱读书的相似度分值：0.4
我爱学习和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

方式二：简单共有词，通过计算两篇文档有多少个相同的词来评估他们的相似度
实现类：org.apdplat.word.analysis.SimpleTextSimilarity
用法如下：
String text1 = "我爱学习";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimpleTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：
我爱学习和我爱学习的相似度分值：1.0
我爱学习和我爱读书的相似度分值：0.5
我爱学习和他是黑客的相似度分值：0.0
我爱读书和我爱读书的相似度分值：1.0
我爱读书和他是黑客的相似度分值：0.0
他是黑客和他是黑客的相似度分值：1.0

❷ k-means聚类算法的java代码实现文本聚类

K-MEANS算法:
k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

具体如下：
输入：k, data[n];
（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];
（2）对于data[0]….data[n], 分别与c[0]…c[n-1]比较，假定与c[i]差值最少，就标记为i;
（3）对于所有标记为i点，重新计算c[i]=/标记为i的个数；
（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值。

算法实现起来应该很容易，就不帮你编写代码了。

❸ 用java判断两个文件的相似度

两个文件转化为二进制流数组或者链表，定义一个int变量n初值为0，遍历两个文件数组，每个节点相同无操作，不同n++;
然后拿 n与文件数组的大小做比较，，，

❹ 怎么用lucene判断两篇文章的相似度 java

用算法中的求最大相似子字符串的方法LCS或许可以，它可以找到两个字符串中最大相似的子字符串。
Java code

/*
* @author talent_marquis<甜菜侯爵>
* Email: [email protected]
* Copyright (C) 2007 talent_marquis<甜菜侯爵>
* All rights reserved.
*/

package ustc.mse.algorithms.dynamicProgramming;

/*
* LCS, Longest-Common-Subsequence
*/
public class LCS
{
public enum DIRECTION{ TOP, TOP_LEFT, LEFT };
private char[] first;
private char[] second;
private int[][] lcsTable;
private DIRECTION[][] lcsAssistTable;
private int lcsLength;
private String lcs_str, lcsMatrix_str, lcsAssistMatrix_str;
private StringBuffer str_buffer;

public LCS( String str1, String str2 )
{
first = str1.toCharArray();
second = str2.toCharArray();
lcsTable = new int[ first.length + 1 ][ second.length + 1 ];
lcsAssistTable = new DIRECTION[ first.length + 1 ][ second.length + 1];
lcs_str = null;

❺ java 如何判断手写与机打文字的相似度

这个不是java的问题吧，看看深度学习。
基础教学就有个是手写文字的判断。
可以把样板文字改成楷体，要机器学习学习。
最后输入手写文字，看命中率吧。

❻ 问：程序文件相似度分析,用jAVA编写，拜托各路大神了。1) 基本要求：给两个程序文件base.j

package d;
public class Test {
public static void method(String str){
String ss=str.toUpperCase();
char arr[]=ss.toCharArray();
int sum=0;
StringBuffer sb=new StringBuffer();
sb.append("[");
for(char c:arr){
int num=c-'A'+1;
sb.append(num+"+");
sum=sum+num;
}
String s=sb.toString().substring(0, sb.toString().length()-1)+"]";
if(sum==100){
System.out.println(str+"="+s+"="+sum+"%");
System.out.println("["+str+"]"+"决定一切");
}else{
System.out.println(str+"="+s+"="+sum+"%");
}
}

public static void main (String args[]){
method("attitude");
}
}

❼ 怎样用python或者是java计算文本相似度

第一步：把每个网页文本分词，成为词包（bag of words）。
第三步：统计网页（文档）总数M。
第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）
第四步：重复第三步，计算出一个网页所有词的tf-idf 值。
第五步：重复第四步，计算出所有网页每个词的tf-idf 值。
3、处理用户查询
第一步：对用户查询进行分词。
第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。
4、相似度的计算
使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

❽ java如何实现超过10w条文本数据的相似度计算

最简单的、最节省性能的方法是建立字典。字典的索引就是字本身，遍历字符串，没遇到一个字就加入到字典中，加入的时候判断下，如果索引存在则加1，不存在则创建，然后在取字典最大值，大于6就报错。上面说的字典可以用java中的hashMap实现。

❾ java学到哪才可以检测两个文本的相似度

学到IO流可以比较文本了，不过用IO比较文本比较麻烦，而且效率低

如果要效率高的话，就需要学
linux + thread + progress

这样子可以通过java调用linux命令
linux中有一个comm -12命令来实现比较两个文件的共同数据，生成一个新文本。拿到新文本的大小/旧文本的大小，旧可以粗略计算出相似度，而且效率极其高
如果文本有上百万行数据的话，用IO可能要十几个小时才有结果，但是linux命令只需要1分钟左右就可以出结果

导航:首页 > 源码编译 > java文本相似度算法

java文本相似度算法

与java文本相似度算法相关的资料