python – Scikit-学习如何检查模型(例如TfidfVectorizer)是否已经适合

Python 6年前 78

+-

python – Scikit-学习如何检查模型(例如TfidfVectorizer)是否已经适合

对于从文本中提取特征,如何检查矢量化器(例如TfIdfVectorizer或CountVectorizer)是否已经适合训练数据？
特别是,我希望代码能够自动判断矢量化器是否已经适合.

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

def vectorize_data(texts):
  # if vectorizer has not been already fit
  vectorizer.fit_transform(texts)
  # else
  vectorizer.transform(texts)

最佳答案

您可以使用基本上用于执行此操作的 check_is_fitted.

在source of TfidfVectorizer.transform()中,您可以检查其用法：

def transform(self, raw_documents, copy=True):

    # This is what you need.
    check_is_fitted(self, '_tfidf', 'The tfidf vector is not fitted')

    X = super(TfidfVectorizer, self).transform(raw_documents)
    return self._tfidf.transform(X, copy=False)

所以在你的情况下,你可以这样做：

from sklearn.utils.validation import check_is_fitted

def vectorize_data(texts):

    try:
        check_is_fitted(vectorizer, '_tfidf', 'The tfidf vector is not fitted')
    except NotFittedError:
        vectorizer.fit(texts)

    # In all cases vectorizer if fit here, so just call transform()
    vectorizer.transform(texts)

点击查看更多相关文章

转载注明原文：python – Scikit-学习如何检查模型(例如TfidfVectorizer)是否已经适合 - 乐贴网

JAVA c c++go swift javascript Nginx UI/UE 小程序 Python C#php asp GitHub项目推荐

DIYP影音内置EPG版：导入直播源即可！畅享VIP电视直播、影视点播

DIYP影音内置EPG版：导入直播源即可！畅享VIP电视直播、影视点播

每日神器 5年前 17255

java-杰克逊反序列化抽象类

java-杰克逊反序列化抽象类

JAVA 6年前 52

求教Docker容器使用宿主机proxy配置的问题。

求教Docker容器使用宿主机proxy配置的问题。

Docker 5年前 47

安装链码时为什么报了can not find package 的错

安装链码时为什么报了can not find package 的错

区块链 5年前 149

6个话费低价充值渠道汇总：30元起充，最低打89折！

6个话费低价充值渠道汇总：30元起充，最低打89折！

每日神器 4年前 1233

TypeError: this.getOptions is not a function

TypeError: this.getOptions is not a function

javascript 5年前 233

国密SSL协议之Nginx集成

国密SSL协议之Nginx集成

Nginx 5年前 504

nofollow标签的作用有重大变化

nofollow标签的作用有重大变化

SEO每天一贴 6年前 75

2024年可用、好用、值得推荐的磁力搜索引擎汇总（长期更新）

2024年可用、好用、值得推荐的磁力搜索引擎汇总（长期更新）

每日神器 5年前 207700

一个 100% 本地替代 Manus AI 的开源项目，绝了。

一个 100% 本地替代 Manus AI 的开源项目，绝了。

GitHub项目推荐 1年前 135

如何获得jenkins中docker的图像ID？

如何获得jenkins中docker的图像ID？

Docker 6年前 55

java-解决gradle插件依赖冲突

java-解决gradle插件依赖冲突

JAVA 6年前 52

python中的pymssql Cursor.execute的参数问题

python中的pymssql Cursor.execute的参数问题

Python 5年前 53

python – 给出2个句子字符串计算余弦相似度

python – 给出2个句子字符串计算余弦相似度

Python 6年前 89

利用Python实现Picgo图床工具

利用Python实现Picgo图床工具

Python 4年前 41

为什么Python代码使用len()函数而不是length方法？

为什么Python代码使用len()函数而不是length方法？

Python 6年前 67

听歌识曲也太牛了吧！只“音”奥秘在此……

听歌识曲也太牛了吧！只“音”奥秘在此……

Python 5年前 75

使用XPath使用python在单元格中获取文本

使用XPath使用python在单元格中获取文本

Python 6年前 108

PyCharm2020.3专业版永久激活(亲测有效，已激活至2089年！已升级到无限重置版！)

PyCharm2020.3专业版永久激活(亲测有效，已激活至2089年！已升级到无限重置版！)

Python 5年前 26720

Pyqt鼠标悬停在QPushButton上

Pyqt鼠标悬停在QPushButton上

Python 6年前 65

linux – 如何在Python中取消设置’http_proxy’环境变量

linux – 如何在Python中取消设置’http_proxy’环境变量

Python 6年前 33

亿赛通加密文件的解密方法

Python 5年前 721

python – MaxRetryError：HTTPConnectionPool：超出最大重试次数(由ProtocolError引起(‘连接中止.’,错误(111,’拒绝连接’)))

python – MaxRetryError：HTTPConnectionPool：超出最大重试次数(由ProtocolError引起(‘连接中止.’,错误(111,’拒绝连接’)))

Python 6年前 1944

如何清除/删除Tkinter Text小部件的内容？

如何清除/删除Tkinter Text小部件的内容？

Python 6年前 534