当前位置: 首页 > news >正文

做解析会员电影的网站长沙官网seo

做解析会员电影的网站,长沙官网seo,网站首页引导页 模版,51我们一起做网站文章目录 介绍评估数据 介绍 文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或…

文章目录

    • 介绍
    • 评估数据

介绍

  文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或重排序等其他任务。这使得该领域的进展难以跟踪,因为不断有各种模型被提出,而没有进行适当的评估。
  为了解决这个问题,Hugging Face团队推出了大规模文本嵌入基准(Massive Text Embedding Benchmark, MTEB)。MTEB涵盖了8个嵌入任务,共58个数据集和112种语言,是目前迄今为止最全面的文本嵌入基准。
  MTEB源码:https://github.com/embeddings-benchmark/mteb
  MTEB论文:https://arxiv.org/abs/2210.07316
  MTEB排行榜:https://huggingface.co/spaces/mteb/leaderboard

评估数据

  由于众所周知的原因,Hugging Face官网访问无法直接,所以这篇文章提供了一个比较友好的代理方案来下载数据集。

  由于mteb1.12.4的版本中使用了ISO编码,导致task_langs参数不太好使了,这里暂时使用1.1.1版本。
  pip install mteb==1.1.1
  pip install C_MTEB

# -*- coding: utf-8 -*-
# Author  : liyanpeng
# Email   : yanpeng.li@cumt.edu.cn
# Datetime: 2024/5/28 18:23
# Filename: download_data.py
from mteb import MTEBimport os
import subprocessos.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
data_path = '/root/data3/liyanpeng/hf_data'def show_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])dataset_list = []for task in evaluation.tasks:if task.description.get('name') not in dataset_list:dataset_list.append(task.description.get('name'))desc = 'name: {}\t\thf_name: {}\t\ttype: {}\t\tcategory: {}'.format(task.description.get('name'), task.description.get('hf_hub_name'),task.description.get('type'), task.description.get('category'),)print(desc)print(len(dataset_list))def download_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])err_list = []for task in evaluation.tasks:# task.load_data()# https://huggingface.co/datasets/task_name = task.description.get('hf_hub_name')print(task_name)cmd = ['huggingface-cli', 'download', '--repo-type', 'dataset', '--resume-download','--local-dir-use-symlinks', 'False', task_name, '--local-dir', os.path.join(data_path, task_name)]try:result = subprocess.run(cmd, check=True)except subprocess.CalledProcessError as e:err_list.append(task_name)print("{} is error".format(task_name))if err_list:print('download failed: \n', '\n'.join(err_list))else:print('download success.')if __name__ == '__main__':download_dataset()show_dataset()

  一共是31个数据集:

在这里插入图片描述

http://www.qdjiajiao.com/news/9158.html

相关文章:

  • 自己怎么做视频收费网站宁波seo外包平台
  • dw网站首页的导航怎么做网盘资源共享网站
  • 国内空间设计公司百度seo推广计划类型包括
  • 政府门户网站建设的问题与对策免费的网站推广方法
  • 张家港做网站收费标准2022最新引流推广平台
  • 做网站利用自己电脑昆明百度推广开户
  • 舞蹈培训机构网站模板五年级下册数学优化设计答案
  • 青岛建网站需要花多少钱百度关键词优化策略
  • flash网站导航怎么做本周热点新闻事件
  • 龙岗 网站建设哪优化seo教程
  • 专业的河南网站建设公司seo 优化是什么
  • 免费招聘网站建设2345浏览器官网
  • 做本机网站足球排行榜前十名
  • 网站建设的过程包括几个阶段青岛seo排名收费
  • net网站开发手机网站免费网络营销平台
  • 电商网站前端页面响应式设计成都seo顾问
  • 东莞企业网站建设设计合肥网站制作推广
  • 做服装加工哪个网站比较好有域名了怎么建立网站
  • 做平台网站怎么做的seo分析是什么意思
  • 什么二手车网站做最好整合网络营销公司
  • 电子商务网站建设试题及答案宝鸡百度seo
  • 免费书画网站怎么做的北京网站制作推广
  • 哪里有做网站企业自建站怎么推广
  • 第一模板网站网站快速收录工具
  • 网站改版 升级的目的是什么意思人工智能培训一般多少钱
  • 怎样在门户网站做 推广baike seotl
  • wordpress虚拟储存seo内容优化方法
  • 开一家做网站公司成本百度seo排名主要看啥
  • 网络开发语言的有哪些网站搜索优化技巧
  • 网站做301好不好百度收录刷排名