※本稿は、2024年に開催されたAI Agents 2.0 Hackathonでの「Finalist Judging and Awards Ceremony」というイベントを要約したものです。
1. イントロダクション
1.1 ハッカソンの概要
AI Agents 2.0 Hackathonは、2日間にわたって開催されたイベントです。参加者たちは、AIエージェント技術を活用した革新的なプロジェクトの開発に取り組みました。このハッカソンの目的は、AIエージェントの新しい可能性を探求し、実用的なアプリケーションを生み出すことでした。
1.2 参加者と審査員の紹介
AI Agents 2.0 Hackathonには、AIエージェント技術に情熱を持つ多様な参加者が集まりました。参加者たちは2日間にわたり、AIエージェントを使用して未来のAIを構築する可能性を探求しました。
このハッカソンを評価するために、業界をリードする専門家で構成された審査員パネルを設けました。審査員には以下の方々が含まれています:
- Div Garg氏 - MultiOnのCEO
- Alex Reibman氏 - AgentOps.aiのCEO
- Jeremiah Owyang氏 - Llama Loungeの創設者、Blitzscaling VenturesのGP
- Mariane Bekker氏 - Founders BayのCEO、Progressive VenturesのGP
- Taranjeet Singh氏 - Mem0の創設者
- Audrey Choy氏 - AirbnbのAIインフラ担当
- Simon Farshid氏 - AI/UIリサーチャー
- Barkley Dai氏 - LumaAIのプロダクト&成長担当
- Jon Turdiev氏 - AWSのシニアソリューションアーキテクト
- Jose Menendez氏 - GroqCloudのシニアUIエンジニア
- Kamil Ruczynski氏 - Wordware(YC S24)の成長責任者
- John Gilhuly氏 - Arize AIの開発者アドボケイト
- Lisa Yu氏 - 99VCのゼネラルパートナー
- Jeni Chang氏 - Founders Instituteのマネージングディレクター
- Daniel Mason氏 - AnonのCEO
これらの審査員たちは、各プロジェクトを以下の5つのカテゴリーで評価しました:
- 実用的なユースケース
- 革新的なソリューション
- 機能的なデモ
- ハードウェア統合
- ハッカーの間で最も人気のあるプロジェクト
1.3 スポンサーと賞品
このハッカソンは、MultiOnとAgentOpsが主催し、Founders Bayと共同開催しました。また、多くの素晴らしいスポンサーの支援を受けました。スポンサーには以下の企業が含まれます:
AWS、Groq、Wordware、CloudFlare、Llama Lounge、Llama Index、Mem0、Founders Bay、Arize AI、Founders Institute、Anon
参加者たちの努力に報いるため、豪華な賞品を用意しました。主な賞品は以下の通りです:
1等賞:
- $1,000の現金賞
- AWSから$5,000のクレジット
- 7月25日のAWSでのLlama Loungeでのデモ権
- MultiOnとAgentOpsのCEOとの個人的なディナー
2等賞:
- $500の現金賞
- AWSから$5,000のクレジット
- Silicon Valley Impactのポッドキャストとラジオ番組でのインタビュー
さらに、各カテゴリーの最優秀賞として以下の賞品を用意しました:
- MultiOnの最優秀使用:MultiOnクレジット
- AgentOpsの最優秀使用:AgentOpsクレジット、AirTagsとモニター
- メモリーの最優秀使用:Rabbit R1 AIデバイス、100,000 Mem0 APIクレジット
- Groqの最優秀使用:SpeedReadでの掲載(週間で数万人の開発者に配信)、Groqスワッグ
- AWSの最優秀使用:AWSから$10,000のクレジット
- Wordwareの最優秀使用:受賞チームの各メンバーに$500のWordwareクレジット、電動スクーター
- Phoenix Traces/Experimentsを使用した最優秀改良アプリケーション:Rabbit R1とTheragun
- Anonの最優秀使用:$500のクレジット、$200のDoorDashギフト証明書、Anonパーカー
これらの賞品は、参加者たちの創造性と革新性を称え、さらなる開発を奨励するために設けられました。
2. ファイナリストプレゼンテーション
2.1 Sapiento AI: リアルタイムファクトチェックと論理的誤謬検出
私たちはSapiento AIを開発しました。私たちは、情報過多の時代において、リアルタイムでの論理的誤謬の識別や事実確認が困難になっているという問題に取り組みました。
私たちのソリューションは、M COCとFriendを使用してリアルタイムで文章を転写し、即座に事実確認を行います。さらに、CROCを使用して話者の論理的誤謬を識別します。「吟味されない人生は生きるに値しない」という言葉が私たちの信念です。
Mulonとの統合により、非常に興味深い機能が実現しました。例えば、「トランプが頭を撃たれた」という主張があった場合、Mulonは「この主張は間違いで、実際には耳を撃たれた」というように、正確な情報を提供することができます。
これは特に、誰かが「リソースによると」や「医師によると」、「みんな知っているように」といった権威に訴える誤謬を使用しようとする場合に重要です。
バックエンドでは、CROCが論理的誤謬を識別します。例えば、「これは誤った二分法です。話者は多くの他の選択肢を許容せず、二者択一を提示しています」といった具合です。
私たちは現在、Friendとの統合を待っているところです。審査が終わり次第、プラグインストアに追加される予定です。
Sapiento AI、"Dare to know"、常に知る勇気を持ちましょう。ありがとうございました。
2.2 Easy Apple AI: LinkedIn求人応募の自動化
私たちのアプリケーション、Easy Apply AIは、私たち求職者がLinkedInで求人に応募する方法を管理することを目的としています。
私は最近卒業し、求職活動のためにサンフランシスコに来ました。多くの人から「ネットワーキングをして求人に応募しろ」とアドバイスを受けましたが、実際にそれを行うと、LinkedInの保存済み求人リストがどんどん増えていきました。応募するのを先延ばしにし、ただ保存ボタンを押し続けていたのです。
私たちは、Mulon、Asentoops、CROC、WorldCOI、Simplify(求人応募者向けの素晴らしいツール)、そして音声変換用に11labsを使用しています。
デモでは、AIが保存済みの求人に自動的に応募するプロセスを示しました。AIは関数呼び出しを使用して、特定の関数をコードから呼び出すことができます。これにより、インターネットから情報を取得するだけでなく、実際にコードを見て操作することができます。
私たちのアプリケーションは、求職活動の効率を大幅に向上させ、求職者の時間と労力を節約します。
2.3 The Multiverse School: SaaSスタートアップ向け自動テストプラットフォーム
こんにちは、私はLiz Howardです。The Multiverse Schoolの創設者兼CEOです。私たちは自律型エージェントを構築しており、今回は初期段階のSaaSスタートアップ向けの自動テストプラットフォームを開発しました。
初期段階のスタートアップでは、トップラインの収益を生み出す主要なユーザーフローが重要です。例えば、ユーザーがサインアップしてクレジットカード情報を入力できるかどうかです。しかし、多くのエンジニアはバックエンドの開発に集中し、フロントエンドの動作確認を毎日行うことを怠りがちです。
私たちのエージェントは、メインの収益を生み出すユーザーフローが機能しているかどうかを自動的にテストします。The Multiverse Schoolの場合、フロントページにアクセスし、スクロールダウンして「参加」をクリックし、Stripeに到達できるかどうかをチェックします。
システムは1時間ごとにチェックを行い、フロントページにアクセスしたユーザーが確実にチェックアウトフローを完了できることを確認します。問題が発生した場合は、即座にメールやその他の方法で通知します。
私たちは、Mulonを使用してテスト結果を抽出し、CROCを使用して実際の結果を解釈しています。バックエンドにはNeon DBを使用しています。
この自動テストプラットフォームにより、初期段階のSaaSスタートアップは、重要なユーザーフローの信頼性を常に維持し、潜在的な問題を迅速に特定し解決することができます。
2.4 Redditor: Redditを活用したスタートアップ成長ハッカー
こんにちは、私はCenaです。一人で開発を行いました。私はRedditを活用したスタートアップの成長ハッカーツール、Redditorを開発しました。
多くのスタートアップ創業者は、最初の1000人の顧客を獲得するためにRedditを利用しています。例えばDealがそうですが、現在の規模でも依然としてRedditを活用しています。なぜなら、何かに悩んでいる人々がそこで話し合い、解決策を探しているからです。創業者として、そこに飛び込んで自分のソリューションを推奨したり、DMを送ったりすることができます。
しかし、このプロセスは非常に面倒です。Redditを常にチェックし、新しい投稿を探し続けることは、認知負荷が高く、作業の流れを中断してしまいます。とはいえ、多くの人にDMを送れば実際に顧客を獲得できるので、ROIは高いのです。
そこで私はRedditorを開発しました。これは、あなたのスタートアップの説明と、探している人や会話のタイプを示すシードフレーズを入力すると、それを元に他の検索クエリを自動生成し、あなたのスタートアップに関連する最新の話題を常に検索します。そして、投稿を開いてコメントしているすべてのユーザー名を取得し、彼らにDMを送信します。
DMの内容は、通話の予約や登録の依頼、あるいは単に「あなたの投稿に共感しました」といったものです。GitHubリポジトリのQRコードをスキャンすれば、詳細を確認できます。
デモは時間の都合上省略しますが、実際に動作します。ブラウザタブを開いてRedditにログインし、このアプリを実行すると、ユーザー名を取得してDMを送信します。
現在、新しい投稿を継続的に見つける部分はまだ手動で投稿を指定する必要がありますが、これは今後改善する予定です。また、協力したい方はプルリクエストを送ってください。
最後に、プレゼンテーション直前に簡単なホームページも作成しました。Ready to.ver.comというURLで、オレンジ色のGoogleフォームにリンクしています。
このツールは非常にコスト効率が良く、1日1回30日間実行しても10ドル程度で済みます。1人の顧客を獲得できれば月額150ドルの収益になるので、私自身も自社で使用する予定です。
2.5 Free Time: AIによる小規模ソーシャルギャザリングの調整
私たちはFree Timeというプロジェクトを開発しました。Free TimeはAIエージェントを使用して、小規模な集まりを調整し、新しい友達と出会いやすくするツールです。
友達作りは難しいものです。100人規模のイベントに行っても、誰と話せばいいのかわかりません。あるいは、Bumble BFFで1人と会っても、デートなのか何なのか曖昧で気まずい思いをすることがあります。
そこで私たちは、共通の興味を持つ3〜5人程度の小規模な集まりを、AIがシームレスに計画するソリューションを作りました。
私たちは4つの異なるエージェントを使用しています:
- Free Time Finder: Mulonを使用してGoogleカレンダーにアクセスし、空き時間を見つけます。
- Data Coordinator: すべてのユーザーの空き状況と興味を分析し、人々をマッチングします。
- Event Manager: グループのためのイベントを作成します。例えば、「この時間に映画を見に行きましょう」といった具合です。
- Group Chat Creator: 全員をDiscordチャンネルに入れて、集まりの調整ができるようにします。
デモをお見せしましょう。まず、名前、Discordユーザー名、居住地、そして好きなアクティビティをいくつか入力します。次に、Googleカレンダーボタンがありますが、Mulonが混乱するので、今回は手動カレンダーを使用します。空き時間をドラッグして入力できます。
すべての情報を入力して送信すると、あとはDiscordサーバーに参加するだけです。そこでは、「木曜日の午後6時にLan Zendでハイキングに行きませんか?」といったメッセージが表示されます。あなたは同意するだけで、みんなと会う準備ができます。
これがFree Timeです。空き時間を最大限に活用し、新しい友達を作ることができます。
2.6 Catchup: エンタープライズ向け情報集約・要約プラットフォーム
私たちのチームはCatchupを開発しました。Catchupは企業向けの情報集約・要約プラットフォームです。
企業で成功するために必要な情報とは何でしょうか?従業員が最新の情報を把握していることが重要です。例えば、ネットワーキングチームやAI/MLチームがそれぞれの分野の最新の研究論文を読む必要があるかもしれません。今日の研究が明日の未来につながるのです。
また、個人レベルでは、大企業には20ほどのチームがあり、各チームが独自のソリューションに取り組んでいます。自社内で何のプロダクトリリースが行われているのか、把握するのは困難です。これらの情報を要約された形で一箇所に集めることができれば非常に便利です。
さらに、企業として最も重要なのは、競合他社が何を構築しているかを知り、自社をどのように成功に導くかを考えることです。
Catchupは、これらの課題を解決します。必要な情報を最も効率的かつタイムリーな方法で提供し、多くのブラウザページにアクセスする必要なく、必要な情報だけを得ることができます。
デモをお見せしましょう。これがCatchupプラットフォームです。ここでトピックを購読できます。AI/ML、がん研究、コンピューターネットワークなど、興味のあるトピックを選択できます。独自のトピックを作成することも可能です。
例えば、CSSを購読すると、先週発表されたCSSに関する研究論文がすべて表示されます。7月19日に発表された詳細なCSS記事があり、それがあなたの組織にどのように関連しているかが示されます。
また、マーケットプレイスセクションでは、先週の更新情報が要約されています。例えば、あるチームがユーザー認証システムを実装し、別のチームがバックエンドサービスをKubernetesに移行したことがわかります。
このツールを使用することで、時間の節約、生産性の向上、コスト効率の改善、より良い意思決定、そしてカスタマイゼーションが可能になります。
私たちのビジョンは、既知と未知の間のギャップを少なくとも0.1%埋めることです。二度とTransformerのような重要な技術革新を見逃さないようにしたいのです。
技術面では、Agent Tops、Mulon、CROC、推論にはWord Frame、Jiraチケットの要約にはAWS Bedrock、そしてペルソナ分析にもAWS Bedrockを使用しています。
2.7 Tres AI: マルチエージェントアプローチによるウェブタスク最適化
私たちはTres AI、別名「ステロイド入りのMulon」を開発しました。Mulonの開放型タスクの例を見てみましょう。ドレスを購入する場合、Mulonは適切にGoogleで検索を行います。しかし、その後Lululemonをクリックし始め、私が指定していないのに特定のドレスをカートに追加してしまいます。これは、ユーザーの好みや意図を考慮せずに行動しているのです。
また、Sony XM4ヘッドフォンと同じ重さのヘッドフォンを探す例では、Mulonは迅速にSony XM4が約2.31ポンドであることを見つけますが、その後「Sony XM4ヘッドフォンと同じ重さのヘッドフォン」を検索してしまいます。人間であれば、2.3ポンドに近いヘッドフォンを探すはずです。
このように、Mulonは2つのタスクがあり、最初のタスクの情報を2番目のタスクに活用する必要がある場合、うまく対応できません。
私たちの解決策は、3つのLLMアプローチを採用しています。スペイン語で「3」は「tres」なので、Tres AIと名付けました。ユーザーのプロンプトを入力として受け取り、アクター・クリティックモデルというブラックボックスで処理します。
アクターはタスク完了のための思考の連鎖を作成し、クリティックがそれをレビューしてフィードバックを提供します。これを数回繰り返し、冗長なステップや順序の誤りを排除した良好な思考の連鎖を生成します。これをMulonに入力し、アクター・クリティックモデルとMulonが協力してタスクを完了します。
さらに、3番目のLLMである「ウォッチャー」を導入し、人間の介入が必要なタイミングを判断します。例えば、ユーザーが単に「ドレスが欲しい」と指定しただけでは、どのような種類のドレスを求めているのか、予算や好みのスタイルなどの情報が不足しています。ウォッチャーはMulonの出力を監視し、人間の介入が必要なタイミングを判断します。
また、ウォッチャーはMulonがタスクから逸脱していないかも確認し、逸脱している場合は他の2つのLLMに新しい思考の連鎖を作成するよう促します。これにより、Mulonの検索結果の精度が向上します。
使用したツールについて説明します。Mulonはすべての検索に使用しました。Agent Opsは複数のLLMとMulonの使用状況を追跡するために活用しました。AWS Bedrockはウォッチャーモデルに使用し、スクリーンショットと前の2つのLLMが生成した思考の連鎖を入力として受け取り、人間の介入が必要かどうかを判断します。最初の2つのLLMにはCROCを使用しました。非常に高速なLLMが必要だったからです。最後に、Mzeroですべての会話履歴を追跡し、将来的に2つのLLMプロセスを改善できるようにしました。
デモをお見せしたかったのですが、技術的な問題で表示できませんでした。しかし、私たちの概念実証では、ドレスを購入する例で、アクター・クリティックモデルがユーザーに対して、求めているドレスについてより詳細な質問をします。フォーマルかカジュアルか、好みのフィット感、色やスタイルの好み、予算範囲、希望のオンラインプラットフォームなど、より多くのプロンプトを提供します。
開発中に直面した課題には、LLM間のルーティング、Mulonとの遅延の削減、CAPTCHAなどの障害への対処などがありました。今後の改善点としては、使用するLLMのプロンプトエンジニアリングの最適化、StreamlitやGradioを使用したより優れたPOCの統合、Mulonとの直接統合、ビデオストリーム機能の追加などが挙げられます。
2.8 C-Fact: リアルタイム音声分析によるディベート改善
私たちのプロジェクト、C-Factは「デベートを再び素晴らしいものにする」ことを目的としています。アメリカだけでなく、私の出身国スペインでも、政治討論を見ていると、実際の事実について議論しているのではなく、誤解を招く事実や、真実でないこと、半分だけ真実のことについて議論していることがあります。これは討論が本来持つべき有用性を大きく損なっています。
このツールは政治討論だけでなく、友人との歴史や政治に関する議論にも適用できます。私たちが構築したのは、討論している2人の発言をリアルタイムで分析し、その事実をチェックし、正しいか間違っているかを出力するリアルタイム音声分析ツールです。事実が間違っている場合、なぜ間違っているのかを説明し、さらにMulonを使用してWikipediaから追加情報を取得することもできます。
アーキテクチャについて説明します。大きなAIエージェントの中に複数のエージェントが存在します。最初のスレッドはオーディオ検出器で、AIは使用せず、単に30秒ごとの音声チャンクを取得します。これを第2のスレッドに渡します。
第2のスレッドは3つのモデルで構成されるエージェントです。まず、CROCを使用したWhisperで音声を文字起こしします。次に、話者分離を行い、最後に声の埋め込みを行います。Whisperだけでは誰が話しているかわからないため、話者分離を使用します。しかし、話者分離は何を話しているかを教えてくれないので、これらを組み合わせて完全な書き起こしを得ます。また、次の30秒のために話者を正しく保持するのが難しいので、ベクトル埋め込みを使用します。最初の2人の話者の声を埋め込み、次の30秒でダブルチェックします。
すべてのスレッドはメッセージキューを使用して通信します。音声転写器が実行されている間、次の処理サイクルのために30秒ごとに音声も記録されています。
音声が完全に転写され、注釈が付けられると、第3のエージェントに渡されます。このエージェントはLlama 3とWhisperを実行し、すべての事実を抽出し、それらが正しいかどうかをダブルチェックします。これがフロントエンドに渡され、さらにMulonを使用してより詳細なチェックを行うこともできます。
では、ライブデモをお見せしましょう。ちょっとした議論をしてみます。
(デモの実行)
緑色で表示されているのが正しい事実です。CH GPTのような優れたモデルを使用すれば、さらに良い結果が得られるでしょう。Mulon APIを使用してWikipediaに行き、事実が完全に正しいかどうかをダブルチェックすることもできます。
複数の話者に対応することもできますが、話者が増えるほど声を区別するのが難しくなります。
私は、将来の政治討論がこのようなライブチャットを持つTwitchストリームのようになることを想像しています。すべてをリアルタイムでファクトチェックし、討論をよりインタラクティブにします。視聴者は何が言われているかを知ることができ、モデレーターもこのダブルチェックアプリケーションを使用して、討論者が間違ったことを言った場合に指摘することができます。
より長い時間、より大きな思考の連鎖、より優れたモデルがあれば、これをさらに改善し、すべての討論をファクトチェックし、再び素晴らしいものにすることができると期待しています。
2.9 Myod: パーソナライズされたインタラクティブポッドキャスト生成
私たちのプロジェクト、Myodをご紹介します。アイデアは、あなたのウォッチリストと読書リストをインタラクティブなポッドキャストに変換することです。
私と同じように、YouTubeに保存した動画や読書リスト、開いたままのタブがたくさんあるけれど、それらすべてに時間を割く余裕がないという方も多いでしょう。そこで、これらのコンテンツをすべて取り込み、私を知っていて、それらのソースから情報をパーソナライズしたポッドキャストに変換し、さらにそのポッドキャストと会話できるようにしてはどうでしょうか。
デモをお見せしましょう。ポッドキャスト生成を開始すると、まずMulonを使用してYouTubeのウォッチ後で視聴リストをチェックします。例えば、Lex FredmanのポッドキャストでのBill Lmanの動画があることがわかります。
次に、その動画の主要なハイライト、つまりYouTubeの各動画で最も再生された部分を取得します。これらのハイライトをダウンロードして要約し、それらのハイライトに関連する音声セグメントを抽出します。
そして、ポッドキャストの要約と実際のポッドキャストの抜粋を1つの音声ファイルに組み合わせます。以前の例をお見せしましょう。
(音声再生) 「こんにちは、Barum。Mulonハッカソンでの時間を楽しんでいることを願っています。デモの間に失敗しないことを願っています。ウォッチ後で視聴リストにあるこの動画についてお話しします。」
この要約は、実際に私の友人が私について記録したことと、私のLinkedInアカウントにある情報を基にパーソナライズされています。そして、要約を私向けにカスタマイズします。
さらに、質問をすることもできます。例えば、「Bill Lmanがこのポッドキャストで言及した本について教えてください」と尋ねることができます。システムは情報を使ってこの質問に答えることができ、私が本好きだということを知っているので、その本を自動的に私のAmazonカートに追加します。
全体的なアイデアは、保存したすべての読み物やウォッチリストの時間がない場合に、それらを短縮し、私にとって最適な方法で提示し、さらに本当に興味のあることについて質問し、より詳しく知ることができるようにすることです。
2.10 AI For Hire: 仮想環境でタスクを実行するAIエージェント
こんにちは、私はDamiです。こちらはAlistairで、他のメンバーのAlbertoは休暇中です。私たちはAI For Hireを開発しました。これは仮想コンピュータ上であなたの仕事を代行するAIエージェントです。
AIエージェントはブラウザだけでなく、あなたのコンピュータ全体にアクセスできるべきだと考えています。そこで、私たちはAIのための仮想サンドボックス、つまりAI従業員のための仮想オペレーティングシステムを構築しました。
私たちは、Appleの仮想化フレームワークを使用しています。これにより、仮想のmacOSコンピュータやLinuxコンピュータを自分のコンピュータ上で実行できます。朝起きたときにAIを起動し、macOSのネイティブアプリケーションを実行させることができます。さらに、寝ている間もAIを稼働させ、あなたに代わってお金を稼がせることも可能です。
システムの仕組みは次のとおりです。まず、Linearというタスクリストからスタートします。AIエージェントはここからタスクのセットを取得します。チームチャットにはSlackを使用し、Figma、Cursor、GitHubといった通常のソフトウェアをコード用に使用します。前述のmacOS仮想化を使ってこれらを実行し、Open Interpreterを使ってコンピュータと対話します。いくつかのケースに対処するためにLLMも使用しています。
一般的なワークフローは、コンピュータを起動し、Slackを開き、SlackとLinearを使って次に何をすべきかを決定します。また、人間が介在してタスクを確認する仕組みもあります。プルリクエストやタスクへの画像の添付などを通じて、AIが勝手に作業を完了することはありません。人間が常に作業を確認します。
私たちのスタックでは、インフラのほとんどにAWSを使用し、メモリにはMzeroを使用しています。
ユースケースとデモについては、多くのAIエージェントを作成できます。簡単なデモをお見せしましょう。このケースでは、AIデザイナーを作成しました。このAIデザイナーは、この仮想環境で任意のアプリケーションを開くことができます。ここではFigmaを使用してデザインを作成していますが、Cursorやその他のツールを開いて特定のタスクを実行することもできます。
実際のところ、プレゼンテーションの準備ができていなかったため、適切なデモを用意できませんでしたが、これはAIが自動的にデザインを作成している様子です。
ネイティブアプリケーションを実行できる利点の一つは、永続的な状態や以前の作業に戻る機能など、ほぼリワインドのような保存機能があることです。これは現在のブラウザベースのパラダイムとは異なります。
2.11 Shoulder Angel: 集中力維持のためのAIアシスタント
こんにちは、私Samは、Shoulder Angel AIを開発しました。Shoulder Angelは、あなたを見守り、実際に気にかけていることに集中し続けるためのリアルタイムの助言を提供するシステムです。
まず、自己管理型の仕事は難しいものです。このハッカソンの間、十分な集中力を維持できた人は手を挙げてください。はい、約3分の1の人々ですね。では、日常生活でもそのくらい良い集中力を維持できる人は手を挙げたままでいてください。2人だけですね。
これは驚くべきことではありません。自分で主導する仕事には多くの困難があります。ある人は、この問題を解決するために、常に背後に誰かを座らせて監視してもらうという方法を試みました。面白い方法ですが、費用がかかることや、常に誰かに見られているという問題があります。
そこで私は、Shoulder Angelというこの方法のAI版を開発しました。Shoulder Angelは、あなたがいつ仕事をしたいのか、何の仕事をしたいのかを知っています。もし仕事をすべき時に仕事をしていなければ、電話をかけてきます。スクリーンを監視し(Screen Pipeという非公開の方法で)、あなたの述べた目標と照らし合わせます。もし不一致があれば電話をかけ、「これは本当にあなたがやりたかったことですか?」と尋ねます。そして、これらの情報をすべて音声インターフェースを通じて記憶します。
デモをお見せしましょう。多くのデモと同じように、私はミームを閲覧することにします。Screen Pipeが活動を監視しているので、すぐに電話がかかってくるはずです。
(電話が鳴る)
「はい、もしもし?」
「こんにちは、Sam。最近Redditのミームを閲覧しているようですね。プロジェクトレポートを完成させ、ハッカソンプロジェクトを完了するというあなたの目標にどのように適合するのか、教えていただけますか?」
「うーん、あまり適合していませんね。少し気が散っていました。」
「あなたの目標に集中しましょう。今日の目標は何ですか?」
「最終デモを行う必要があります。」
「最終デモの準備を整えるために、具体的にどのようなステップを踏む必要がありますか?」
「おそらく電話を切る必要があります。時間がどれくらい残っていますか?」
「時間が迫っているようですね。行く前に、Shoulder Angelからのサポートに感謝します。」
「ありがとう、Shoulder Angel。助かりました。」
これがデモです。
このシステムは、推論にはGro、LLama 70億パラメータモデルを質問と音声エージェントの両方に使用しています。音声はElevenAIとTwilioで処理し、記憶はMzeroで管理しています。バックエンドはPythonとFastAPIで、ローカル処理はOCRで行っているため、常時実行してもそれほど高額にはなりません。Screen Pipeはローカル処理を行い、トレーシングにはWeights and Biasesのweaveツールを使用しています。
これで終わりです。このようなプロジェクトに興味がある方は、Twitterの@samsthinksでフォローしてください。
2.12 Custodia: カスタマーサポート向けAIエージェント
皆さん、こんにちは。家の整理をしているときに、まさにその瞬間に家電が故障するという事態以上に悪いことはありません。すべてがうまくいっていると思った矢先に、食洗機が壊れたり、部品が足りなくて電子レンジが使えなかったり、AT&Tの回線を変更したいのに何時間も電話で待たされたりします。
そして今や、彼らは厚かましくもAIエージェントを電話の向こう側に置いていますが、私たちはそのスクリプトをひっくり返そうとしています。消費者のためのAIエージェントを作成し、もはやあなたが電話の木構造で待たされる必要がなくなります。今度は、私たちがAIエージェントとなり、あなたに代わって対応します。
ここに示されているように、長い待ち時間、複雑な電話システム、関連情報の収集の必要性など、さまざまな不満があります。私たちのソリューションは、これらの問題それぞれを解決します。具体的には、Mulon AIを使用して、電話番号や返品ポリシーの有効期間など、電話に必要な情報を収集します。
では、どのように時間を節約できるのでしょうか?例えば、洗濯機の部品を交換したい場合を考えてみましょう。まず、保証期間内かどうかを確認する必要があります。保証期間内なら、全体の交換が可能かもしれませんし、修理後も問題が続く可能性もあります。誰がそれをチェックするのでしょうか?私たちのMulonエージェントがポリシーをチェックし、保証期間内であることを確認し、どのように役立つかを教えてくれます。
また、カスタマーサポートに電話する必要がある場合もあります。時には電話番号が正しいこともありますが、間違っていることもあります。あなたの貴重な時間を無駄にしないよう、私たちのMulonエージェントが番号をチェックし、あなたに代わって電話に出ます。間違った番号だった場合でも、あなたの時間を無駄にすることはありません。
これらすべてがバックグラウンドで行われている間、あなたはより重要なタスクに集中できます。顧客を待たせるだけの電話に出るよりも、あなたにとってより関連性の高いタスクに取り組むことができます。
私たちのシステムの仕組みを説明します。まず、音声からテキストへの変換にGroを使用しています。これは80億パラメータの高速で迅速なモデルを使用しているため、非常に速いレスポンスタイムを実現し、会話が途切れることがありません。
これは単にモデルにプロンプトを与えるだけです。パーソナライズするために、「洗濯機を修理してください」と言うだけでなく、さらに詳細な質問をします。どのブランドか、どのように行うか、どんな課題があるかなどです。そして、すべての情報を収集し、Llama Indexを使用して最も関連性の高い情報だけを取得します。なぜなら、会話が常に100%有用というわけではないからです。
その後、Mulonエージェントを使用してポリシーの詳細と電話番号を取得します。電話番号を取得するだけでなく、あなたに代わって電話をかけます。私たちのAIは単なる音声モデルではなく、感情を理解する共感的なAIです。電話の向こう側も人間かもしれませんが、多くの場合AIエージェントです。
その後、出力を構造化し、通話の内容、要約、部品を注文する必要があるかどうか、指示やマニュアルなど、関連する手順だけを画面上に表示するか、メールで指示を送信します。
なぜ私たちのソリューションが他のオプションよりも優れているのでしょうか?私たちのAIは感情的に知的で、相手が顧客であれ人間であれAIであれ、その痛点を理解します。また、高速で、完全に展開され、すぐに使用できる状態にあります。
custodial.life.comで自分で書くことができます。私たちは、あなたのための音声エージェントを構築しています。
デモをお見せしましょう。Xavierがアカウント作成のプロセスを案内します。まず、何が壊れているかをCustodiaに伝えます。
「Custodia、Samsungの洗濯機に問題があります。Samsungは最高のはずなのに、なぜ壊れているのでしょうか?」
すると、私たちのエージェントから、この問題を自分たちで解決できるか、それともカスタマーサポートに電話する必要があるかを判断するためのフォローアップ質問が来ます。今回はカスタマーサポートに電話することにしましょう。
(電話がかかってくる)
「こちらはSamsungサポートセンターです。」
「こんにちは、素晴らしい一日をお過ごしのことと思います。Samsungの洗濯機に問題があり、解決方法を見つけたいと思っています。お手伝いいただけますか?」
「もちろんです。どのモデルをお使いですか?いつ予約を取れますか?など」
このように、サポートラインと話をする必要のない人にとって、このエージェントが非常に役立つことがおわかりいただけたと思います。
これが私たちのプレゼンテーションです。カスタマーサポートにおいて、誰がAIボットを持つかというスクリプトをひっくり返しました。
3. 審査過程と結果発表
3.1 各スポンサー賞の発表
- GROとGROCの賞:受賞者はCatchup。賞品として、週間で数万人の開発者に配信されるSpeed Readsに掲載される権利と、GROCのスワッグが贈られました。
- Mzero賞:受賞者はShoulder Angel。賞品として、Rabbit R1 AIデバイスと100,000 Mzero APIクレジットが贈られました。
- Friend賞:複数の受賞者がありました。
- 3位:Talk GuruとMyod。賞品として$300のOpenAIクレジットと$300のDeep GBRXクレジットが贈られました。
- 1位:Sapiento AI。賞品として$500のOpenAIクレジットと$500のDeepgramクレジットが贈られました。
- Arise賞:受賞者はLevel Up FYI。賞品としてRabbit R1とTheagonが贈られました。
- AWS賞:受賞者はAI for Hire。賞品として$10,000のAWSクレジットが贈られました。
- WorldCOI賞:受賞者はA0000Z Pubz。賞品としてスクーターと、受賞チームの各メンバーに$500のWorldCOIクレジットが贈られました。
- Agent Ops賞:受賞者はTres AI。賞品としてAgent Opsクレジット、AirTags、モニターが贈られました。
- Mulon賞:受賞者はCatchup。賞品としてMulonクレジットが贈られました。
- Founder Institute特別賞:受賞者はRedditor。賞品として、Jenny Changが主催する秋のアクセラレータープログラムへの参加権が贈られました。
3.2 準優勝プロジェクトの発表と賞品
準優勝プロジェクトはTres AIでした。Tres AIには以下の賞品が贈られました:
- $500の現金賞
- AWSから$5,000のクレジット
- 主催者のラジオ番組「Silicon Valley Impact」でのインタビュー権
3.4 優勝プロジェクトの発表と賞品
優勝プロジェクトはCustodia AIでした。Custodia AIには以下の賞品が贈られました:
- $1,000の現金賞
- AWSから$5,000のクレジット
- 次週のLlama Loungeでのデモ権
- 市内の高級レストランでのMulonとAgent Opsの創設者(DivとAlex)との個人的なディナー
優勝者の発表時には、写真撮影も行われました。主催者たちは、Custodia AIの実用的なユースケースを高く評価していました。
4. ハッカソンの総括
4.1 主催者からのコメント:Div Garg(Mulonの共同創設者兼CEO)
これは素晴らしい成果でした。参加者の皆さんが開発した多くの異なるユースケースに私は本当に驚きました。その多くが実際に実用的で有用なものだったことを高く評価しています。
私は特に、スタートアップエコシステムにおけるイノベーションの重要性を強調したいと思います。Karpathyの言葉を借りれば、新しい種類のテクノロジーを革新し、物事のやり方を革命化する、繁栄するスタートアップの生態系を持つことが重要なのです。
参加者の皆さんが開発したさまざまなユースケースや、Mulon、Agent Ops、Mzeroなどのツールを組み合わせて使用する様子を見て、私は新しいエージェントスタックの進化を感じました。そのため、このハッカソンを「Agents 2.0」と名付けたのです。
私は、信頼性の高いエージェントのスタックが形成されつつあり、人々がこれを統合し、実用的な製品を構築し始めていると確信しています。
4.2 AIエージェント技術の進歩と将来性:Alex Reibman(Agent Opsの共同創設者)
AI Agents 2.0 Hackathonを企画した際、私は2.0というアップグレードがプログラムをより高度で洗練されたものにし、おそらくより複雑になるだろうと考えていました。しかし、実際に見たものは私の予想とは異なっていました。
このハッカソンで見られたエージェントはより強力で信頼性が高く、安全で安価になっていました。しかし、驚くべきことに、それらはむしろ構築がより簡単になっていたのです。
特にMulonやMzeroなどのツールを使用することで、コーディング経験がほとんどないビルダーでも、非常に短時間で高度なアプリケーションを作成できるようになったことを私は指摘したいと思います。また、熟練した開発者にとっても、これらのツールは数週間から数ヶ月かかっていたデバッグセッションを一週末で完了できるようにしました。