首页 > 其他分享 >IBM 开源的文档转化利器「GitHub 热点速览」

IBM 开源的文档转化利器「GitHub 热点速览」

时间:2024-11-12 08:48:25浏览次数:1  
标签:GitHub Star IBM Python 开源 文档 速览 com

上周的热门开源项目,Star 数增长犹如坐上了火箭,一飞冲天。短短一周就飙升了 6k Star 的多格式文档解析和导出神器 Docling,支持库和命令行的使用方式。全新的可视化爬虫平台 Maxun,则在刚开源时便轻松斩获了 4k Star。而本地优先的个人理财工具 Actual,支持 Docker 自托管,让用户可以将数据掌握在自己手里。如果你在寻找机器学习的 Python 库,可以去 best-of-ml-python 看一看,它涵盖了 34 个分类,共计 920 个优秀的机器学习 Python 库。

最后,免费的 Windows 应用卸载利器(Bulk-Crap-Uninstaller)和 B 站视频空降助手(BilibiliSponsorBlock),凭借着简单实用、开箱即用的特点,迅速赢得了广大用户的青睐。

  • 本文目录
    • 1. 热门开源项目
      • 1.1 多格式文档解析和导出工具:Docling
      • 1.2 本地优先的个人理财工具:Actual
      • 1.3 简单干净的 Hugo 主题:hugo-PaperMod
      • 1.4 开源的无代码网页数据提取平台:Maxun
      • 1.5 顶级的机器学习 Python 库列表:best-of-ml-python
    • 2. HelloGitHub 热评
      • 2.1 B 站视频空降助手:BilibiliSponsorBlock
      • 2.2 免费的 Windows 应用卸载神器:Bulk-Crap-Uninstaller
    • 3. 结尾

1. 热门开源项目

1.1 多格式文档解析和导出工具:Docling

主语言:PythonStar:7.9k周增长:6k

这是一个由 IBM 开源的 Python 工具,专门用于将各类文档转化为适合生成式 AI 使用的工具。它能够将 PDF、DOCX、PPTX、图片、HTML、Markdown 等多种流行文档格式,导出为 Markdown 和 JSON 格式,支持多种 OCR 引擎(PDF)、统一的文档对象(DoclingDocument),轻松集成检索增强生成(RAG)和问答应用,适用于需要将文档作为生成式 AI 模型输入的场景。

from docling.document_converter import DocumentConverter

source = "url"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

GitHub 地址→github.com/DS4SD/docling

1.2 本地优先的个人理财工具:Actual

主语言:TypeScriptStar:15k周增长:600

这是一款完全免费开源、本地优先的个人理财工具。它采用 Node.js 编写,拥有简洁的界面和直观的现金流报告,支持 Docker 自建、导入交易数据和多设备同步,以及可选的端到端加密功能,注重保护用户隐私和数据安全。

GitHub 地址→github.com/actualbudget/actual

1.3 简单干净的 Hugo 主题:hugo-PaperMod

主语言:HTMLStar:10k

这是一个快速、简洁、响应式的 Hugo 主题。它基于 hugo-paper 开发,并在此基础上增加了更多功能和自定义选项,支持多语言、自动切换明暗主题、SEO 友好、社交媒体分享按钮、封面图片、导航栏等功能。此外,它还提供了常规、主页信息和个人资料三种模式,可用于快速构建不同风格的个人博客。

GitHub 地址→github.com/adityatelange/hugo-PaperMod

1.4 开源的无代码网页数据提取平台:Maxun

主语言:TypeScriptStar:4k周增长:3k

这是一款全新的无代码网页数据提取平台,无需编程即可轻松抓取网站的数据,支持列表/文本抓取、截图、自定义代理、自动处理分页和滚动等功能。作为一个新的开源项目,它的功能还在不停迭代,计划推比如适应网站布局变化和登录后数据提取等新功能。

GitHub 地址→github.com/getmaxun/maxun

1.5 顶级的机器学习 Python 库列表:best-of-ml-python

主语言:OtherStar:17k周增长:1.2k

该项目提供了一个高质量的机器学习 Python 库列表,包含超过 900 个开源项目,并按照项目质量评分进行排名,每周更新一次。所有开源项目被分成了 30 多个分类,包括机器学习框架、数据可视化、自然语言处理、OCR、模型序部署等,便于不同应用领域的开发者快速找到所需的机器学习工具和资源。

GitHub 地址→github.com/ml-tooling/best-of-ml-python

2. HelloGitHub 热评

在此章节中,我们将为大家介绍本周 HelloGitHub 网站上的热门开源项目,我们不仅希望您能从中收获开源神器和编程知识,更渴望“听”到您的声音。欢迎您与我们分享使用这些开源项目的亲身体验和评价,用最真实反馈为开源项目的作者注入动力。

2.1 B 站视频空降助手:BilibiliSponsorBlock

主语言:TypeScript

这是一款能够自动跳过 B 站视频中恰饭片段和开场、结尾动画的浏览器插件,所有标注数据均由网友贡献,支持 Chrome、Edge 和 FireFox 浏览器。

项目详情→hellogithub.com/repository/298fa9ba909c49428c1dc7f8c401bbbd

2.2 免费的 Windows 应用卸载神器:Bulk-Crap-Uninstaller

主语言:C#

这是一个用 C# 开发的 Windows 软件卸载工具,能够快速删除大量不需要的应用程序。它完全免费、开箱即用,支持批量和强制卸载、清理残留文件、检测隐藏或受保护的已注册应用等功能。虽然面向 IT 专业人员设计,但其简单的默认设置,让任何人都能轻松上手。

项目详情→hellogithub.com/repository/e5745984014e47f1a33648c0425256a0

3. 结尾

以上就是本期「GitHub 热点速览」的全部内容,希望你能够在这里找到自己感兴趣的开源项目,如果你有其他好玩、有趣的 GitHub 开源项目想要分享,欢迎来 HelloGitHub 与我们交流和讨论。

往期回顾

标签:GitHub,Star,IBM,Python,开源,文档,速览,com
From: https://www.cnblogs.com/xueweihan/p/18541024

相关文章

  • 用 Github Action 实现天翼云盘的签到和有道云的签到
    最近我在学习Python的过程感到有些乏味,老是静不下心来学习。无意中看到Github上有人分享了一些签到项目,而且是用Python实现的。这是活生生的课程啊。通过阅读代码,尝试自己实现这种功能,我感觉有很大的收获。实践果然出真知!如果你也在学习Python,不妨尝试一下。https://......
  • 在 Github Action 管道内集成 Code Coverage Report
    GithubActions我们的开源项目Host在Github,并且使用它强大的Actions功能在做CICD。单看GithubActions可能不知道是啥。其实它就是我们常说的CICDpipeline或者叫workflow。当我们Push代码到Github,它会自动触发这些管道。它会帮我们自动build代码,跑testcases,构......
  • 什么是git,什么是github,git和github的使用
    Git实战注意:本项目是学习笔记,来自于哔哩哔哩武沛齐老师的Git实战视频,网址:【武沛齐老师讲git,看完绝对上瘾!!!】https://www.bilibili.com/video/BV1ne4y1E7np/?share_source=copy_web&vd_source=2c9a5d5590d3759367594e264ff079c4另外,因为这个博客是我直接从typora上复制粘贴过......
  • 神书《从零构建大模型》分享,尚未发布,GitHub标星22k!!
    《从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教授,在GitHub、油管、X上拥有大量粉丝,是一位真正的大佬。本书免费获取地址在本书中,读者将从内到外了解LLM的工作原理。在这本富有洞察力的书中......
  • 一种增稳加速直连 Github Steam Pixiv 等网站的全新轻量化方案 (Sheas Cealer 开发两
    由于法律风险和敏感性,本文不探讨使用代理或者混淆作为解决方案,而是研究一种更加合法合规和轻量化的无代理直连方案来加速部分网站的访问,在结尾处我编写了一个简单易用的开源桌面端程序,运用本文介绍的原理来实现部分网站的加速,如果你对原理部分不感兴趣,也可以直接跳至结尾处看我写......
  • GitHub每日最火火火项目(11.7)
    项目名称:DataExpert-io/data-engineer-handbook项目介绍:“DataExpert-io/data-engineer-handbook”是一个非常有价值的资源库。这个项目收集了与数据工程相关的各种学习链接,涵盖了数据工程领域的方方面面。对于想要深入了解数据工程的人来说,它就像是一个知识宝库。无论是......
  • GitHub | 发布到GitHub仓库并联文件夹的方式
    推送到Github推送步骤如果你只想更新单个文件,只需在第4步中指定该文件的路径即可。可能问题一效果推送步骤更新GitHub仓库中的文件通常涉及以下步骤:克隆仓库:首先,你需要将GitHub上的仓库克隆到本地。使用gitclone命令克隆仓库:gitclone仓库地址切......
  • Java(Spring Boot)项目通过 GitHub Actions 流水线实现自动化构建部署
    前两次分享了前端(Vue)项目的自动化构建和 Rust项目的自动化构建,本次就分享JavaSpringBoot项目的自动化构建并部署,部署时需要一台已安装JDK17及以上的Linux服务器。1.新建流水线构建文件在项目的根目录下新建.github/workflows文件夹并在文件夹下新建deploy.yml......
  • 2024年11月 GitHub 十大热门项目排行榜
    欢迎来到2024年11月的GitHub热门项目前十排行榜!无论你是开发者、数据科学家,还是科技爱好者,这些项目在GitHub上都引起了广泛关注。让我们一起看看这些项目独特之处吧!Skyvern-AI/Skyvern......
  • 设计模式速览
    设计模式速览前言:资料来源吉大设计模式课程,自用只提取应试回忆关键部分,省略优缺点说明,详细应用之类,扩展挑了常出现的1.概述1.1类间关系1.1.1依赖(dependency):​ 一个类A使用到了另一个类B,而这种使用关系是具有偶然性的、临时性的、非常弱的,但是B类的变化会影响到A。......