《Spark处理非结构化数据的思路(python实现)》我们-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

大数据海中游泳的鱼

3 年前

trueWxh_bai

《Spark处理非结构化数据的思路(python实现)》
我们首先初始化了Spark环境，然后使用Spark的textFile方法将文本数据导入到Spark中进行处理。然后使用sklearn库的TF-IDF算法进行特征提取，并使用KMeans算法进行数据聚类分析。最后，使用Matplotlib库生成了聚类结果的散点图。接着使用NLTK库对文本数据进行清洗，去除了停用词。
——来自博客 https://blog.csdn.net/Wxh_bai/article/details/130071807

文章有用吗(单选)

0 人已经参与已结束

有

0人

没有

0人

CSDN App 扫码分享

分享

评论

点赞

复制链接
举报

下一条：

大家觉得Python的tkinter库好用吗