市场上有一百万和一个语音转录服务。 但即使只有一项工作要做,我从来没有见过一个服务,可以处理长尾词汇在现实世界中使用。 这是特别具有挑战性的,如果你是一个创业公司,试图出售你的服务给企业,依靠准确的转录为他们的业务。
语音转录创业公司Tetra的联合创始人乔恩·戈德史密斯(Jon Goldsmith)理解这一挑战——事实上,他甚至愿意承认自己没有百分之百地解决这个问题。 但戈德史密斯认为,答案在于深度学习,他准备用由Amplify Partners领导的150万种子轮来证明这一点,YCombinator和一些天使的参与。
我顺便去Tetra办公室看看戈德史密斯,他的联合创始人NikLiolios和另一位工程师创造了什么。 戈德史密斯给我打了个电话,用他的智能手机安装了Tetra应用程序。 当他和在后台运行的深度学习模型倾听时,我对转录服务提出了一连串的挑战。
以不同的速度说话,抛出数字,初创公司名称和其他强硬的词在某种程度上确实让利乐感到沮丧-但公平地说,没有我没有打破的人工智能。 考虑到Tetra的使用是多么容易,我可以看到它被用作备份参考或记录保存-打开它,忘记它,然后用它搜索笔记。
如果需要99或100%的准确性,Tetra提供人类转录的费用和24小时等待。 这实际上帮助了客户和Tetra,因为准确的转录可以作为培训数据反馈,以提高未来的性能。
戈德史密斯告诉我,他正在寻找牵引力出售给投资者,经常打勤奋电话。 这些客户希望Tetra创建一个与行业专家对话的永久记录。 其他更传统的企业用例也存在,比如在销售中。
这对公司来说似乎是相当好的结果。 而且,随着三人Tetra团队在一个设计为商业用途的住宅公寓中工作,情况仍然相当糟糕。 在工程方面,许多基础设施正由现成的API供电。
这实际上是一件好事,因为这意味着Tetra不会浪费时间来构建市场上已经存在的东西,而是专注于收集大量的转录数据集,这只会继续提高服务质量。
该团队的方法在很大程度上依赖于能够优化哪些部分的对话被发送到哪个云API。 例如,一些NLP服务提供商更好地理解与电影、音乐和媒体有关的演讲,而另一些服务提供商更擅长数字等。
种子融资150万将用于扩大工程团队,改善机器学习管道。 Tetra包括搜索功能,这样用户就可以在传统上不可检索的语音记录中快速找到特定的句子。 我可以看到这在未来变得更加积极主动-例如自动标记名称和日期。